태터데스크 관리자

도움말
닫기
적용하기   첫페이지 만들기

태터데스크 메시지

저장하였습니다.

R 프로그램이나 단어 추출 웹페이지를 이용해 영어단어를 추출해도 큰 난관이 남아있다.

추출된 엄청난 단어를 쭈욱 검토해서 모르는 단어를 골라내야 한다.


뭐... 한두 번 하는 것이라면 그냥 해보겠지만, 이런 일이 반복되면, 어느 순간부터는 막 화가 나고, 모든 일이 짜증 날 것이다.
(그래서 하다가 말았...=.=;)

원서 읽기를 시작하는 사람이 가장 무난하게 시작하는 Magic Tree House (마법의 시간 여행) 시리즈를 보자.

1권의 단어를 추출하면 777개의 단어가 추출된다.

2권의 단어를 추출하면 941개의 단어가 나온다.

3권은 879개

4권은 917개

900개 넘는 단어가 처음 보는 것이라면 아는 단어를 지우는 것이 수월하겠지만, 1, 2, 3권의 단어를 펼쳐놓고 비교해보면 중복된 단어가 넘쳐난다.

1권에서 접한 단어는 2권에서 굳이 안 봐도 되는데, 다시 보면서 지워나가려면 짜증이 밀려날 수밖에 없는데, Python 프로그래밍 책자를 보다가 이 문제를 해결할 수 있는 방법이 떠올랐다. Outer Join이라는 것인데, 벤다이어그램으로 표시하면 아래 부분을 찾아내는 방법이라고 한다.

기존에 찾아본 단어는 known.csv라는 파일에 저장하고, 새로 추출된 단어는 source_raw.csv 파일에 저장한 후에 Python Code를 돌리면 기존에 찾아본 단어는 없어지고 처음 등장한 단어만 source.csv에 남게 된다.

1권과 중복된 단어를 제외하는 코드를 돌린 후에 2권에서 처음 나온 단어만 추려내면

501개의 단어만 남는다. 검토해봐야 할 단어는 많지만, 그래도 941개와 비교해보면 절반 가까이 줄어든 셈이다.

나름 해야 할 일의 양을 줄이는 요령 하나를 찾아내는 것은 꽤 즐거운데... 그전에 했던 삽질을 생각하면 아쉬움이...ㅠ.ㅠ









+ Recent posts