태터데스크 관리자

도움말
닫기
적용하기   첫페이지 만들기

태터데스크 메시지

저장하였습니다.

고등학생 때 여러 친구들이 영어 단어를 외우기 위해서 몇몇 출판사에 나온 단어 모음집을 봤던 기억이 있다.(아... 그 때가 벌써 30년 전...ㅠ.ㅠ)


요즘 학생도 영어 단어를 외워야 하는데, 어떤 책을 보고 있을지 약간 궁금했는데... 눈에 띄는 책이 있었다.

영어 단어도 빅데이터를 이용해서 외운다?

빅보카라는 책인데, 빅데이터 분석을 통해서 자주 쓰는 단어를 추출했다고 한다. 


일단, 신박한 아이디어에 감탄하고...@.@ 


난 시험 볼 일이 없으니, 저 책으로 공부할 필요는 없고...^^ 

빅보카라는 책의 개념을 내 원서 읽기에 접목시켜 보면 어떨까?


'내가 읽은, 혹은 읽을 원서에 나온 단어를 빈도 순으로 정리해보고 모르는 단어를 추려나가면 그나마 수월하게 읽을 수 있지 않을까?' 라는 생각을 해보니, 괜찮을 것 같다.


바로 도전!

1) Gutenberg Project라는 사이트를 방문한다.


2) 저작권이 만료된 원서를 고른다.


3) 찾은 원서의 text 파일을 다운 받는다.



4) 책 내용을 제외하고는 다 삭제하고, 원서에서 숫자나 이상한 기호 등은 다 날려버린다.

이런 책을...

정규식을 이용해, 영어 알파벳을 제외한 나머지를 다 지워버린다.


5) 이제 단어만 나열된 텍스트 파일을 이용해서 빈도 순으로 추출한다. R 프로그램을 사용하는 방법은 잘 모르지만, 우연히 Word Cloud 만들기라는 내용을 접한 적이 있는데, 그 방법을 이용하면 될 것 같다. 단어만 남은 텍스트 파일을 two.txt로 저장하고, R script를 돌려본다. 

인터넷에서 주워온 스크립트를 짜맞춰 사용해서 그런지 경고 메시지가 막 나온다.

뭔가, 이상한 것이 있는지 경고 문구가 막 보이지만, 결과물이 나오기는 한다. 단순히 빈도 순에 의해서 추출한 단어수는 모두 9621개로 나온다. 엑셀 파일을 열어보면


가장 많이 나오는 단어은 'the'로 무려 8,024번 나온다.


2번 이상 나온 단어는 모든 5412개

마지막에 외계어가 보이는데... 프로그램을 잘 모르는 관계로 왜 이런 일이 생기는지도 모름

딱 한 번만 나온 단어는 4208개(저 이상한 외계어는 빼고...-.-;)


이제 빈도순으로 정리된 9600개의 단어 중에서 아는 것은 제외하고 모르는 단어만 추려서 찾아보면 됨

+ Recent posts