파이썬에서 자연어 분석을 시작할 때 꼭 알아야 되는 내용들을 정리해 보았습니다.


Mecab

mecab 은 2015년도에 제작된 모듈이고, 사전도 2018년에 멈춰있습니다. 그럼에도 불구하고 파이썬 환경에서 CPU 분산처리 기능을 제공하여 다른모듈 보다 더 빠른성능을 제공 합니다.

사용자 사전 추가하기

사용자 사전 추가하기 feat Mecab 등의 포스팅 내용을 살펴보면, 사용자 사전인 uup.csv 파일에 내용을 추가하는 방식으로 작업을 진행하면 됩니다. 주의할 점으로는 설치된 파일들을 직업 조작하는 것이 아니라 설치 작업을 진행할 파일의 내용을 수정작업을 한 뒤 수정한 파일들을 근거로 재설치 과정을 진행 하여야 합니다. 때문에 작업에 필요한 user-dic/ 의 경로 및 관련 파일들은 설치작업에 필요한 파일을 제거하게 되면 찾을 수 가 없고, 다시 설치파일을 다운 받은뒤에 작업을 진행하면 됩니다.

cd mecab-ko-dic-2.1.1-20180720
./autogen.sh
./configure
make install
tools/add-userdic.sh

그리고 추가로 주의할 점은 수정작업이 반영된 사전파일은 기존의 경로가 아니라 tools/add-userdic.sh 스크립트를 실행한 경로에서 사전파일을 필드하여 갖고 있습니다. 즉 원본 사전파일을 그대로 유지한 상태에서 별도로 사용자 사전을 관리할 수 있다는 장점이 있습니다. 따라서 Mecab 을 실행할 때에는 사용자가 추가한 사전파일 경로 를 추가로 지정을 해 준 뒤 실행을 해야만 해당 사전을 근거로 작업을 진행할 수 있습니다.

from konlpy.tag import Mecab
mecab = Mecab(dicpath='/home/USER/venv/mecab-ko-dic-2.1.1-20180720')
mecab


참고사이트