한글 형태소분석기 개발 History

1998년도에 처음 연구소에 입사해서 약 2년 정도는 데이터와의 싸움이었다. 기관에 산재되어 있던 약 1,000만건 정도의 서지 데이터베이스의 품질을 높이는 작업을 진행하였다. 물론 지금 생각하면 천만건의 데이터가 그리 많아 보이지는 않지만, 당시로선 국내에서 그 정도 규모의 데이터를 보유한 기관이 흔치는 않았고, 그런 데이터베이스를 반자동으로 분석해서 오류수정 및 정형화를 한다는 것도 사실 불가능에 가까운 작업이었다. 데이터 작업을 해본 사람들은 알겠지만, 이 작업을 하다보면 하루에 디스크 몇 기가 쓰는건 일도 아니다. 나도 그 당시에 수도 없이 disk full을 내버려 운영담당자에게 싫은 소릴 많이 들었다. 암튼 이렇게 2년 정도를 작업하고 나니, 이제 몇백메가 정도의 텍스트 데이터 다루는 것은 우습게 보였다.(사실 텍스트로 몇백메가도 작은 데이터가 아닌데 말이다...ㅎㅎㅎ)

그 후에 다른 부서로 이동하게 되었다. 이 부서는 바로 그 당시로선 매우 획기적인 시스템인 정보검색엔진 KRISTAL을 개발하던 팀이었다. 참고로 그 당시에 현재 NHN CTO로 있는 이준호박사, 역시 NHN 검색팀장으로 있는 신중호씨 등이 있었다. 암튼 여기서 나의 새로운 일이 시작되었다. 그건 바로 한국어 형태소분석기 개발!

물론 그 당시에도 신중호씨가 개발한 형태소분석기가 있긴 있었으나, 포팅이나 속도 등의 부분에서 문제점이 있었다. 새로운 형태소분석기를 개발하기 위해서 가장 중요한 것은 바로 형태소 사전 구축 및 수집이었다. 현재도 자신만의 형태소분석기를 만들고 싶어 하는 많은 사람들이 처음부터 좌절하는 부분이 바로 이 사전 획득일 정도로 장벽이 매우 높다. 이 사전을 가지고 있는 사람들은 많이 있지만, 공식적으로 공개하는 사전은 별로 없다. 그러나 나는 운 좋게도, 현재 영산대학교 교수로 재직중이신 채영숙박사님께서 상당량의 사전을 제공해 주셨다. 원천사전 그대로를 활용할 수는 없기에, 도처에 산재되어 있던 사전을 수집하고 가공하기 시작했다. 이렇게 해서 모인 표제어가 약 15만개 정도.

다음은 사전탐색모듈 개발 작업이었다. 형태소분석기의 생명은 속도라고 생각한 나는 이 사전탐색모듈개발에 혼신을 기울였다. 형태소분석 단계에서 가장 빈번하게 활용될 수 있는 모듈이기 때문이었다. 변형 TRIE 구조를 기반으로 탐색속도를 최적화하기 위해 이를 지속적으로 고쳐나갔다. 결국 700,000어절/초 라는 속도를 내고서야 이 작업을 그만두었다.

분석모듈 자체개발은 그리 어렵지 않았다. 그 이유는 석사과정 당시에 한국어 철자검사교정기를 개발하였고, 약 11만 라인 규모의 소스를 거의 외우다시피 했기 때문이었다. 모든 분석단계가 머리에 남아 있으니, 그냥 그것을 구현만 하면 되는 작업이었다. 이 개발 작업을 진행하면서, 나도 나 자신에게 놀랐다. 왜냐하면 내 스스로도 이렇게까지 완벽하게 철자검사교정 알고리즘을 머리 속에 저장해두고 있었을 지는 몰랐기 때문이다.

형태소분석기 1차 버전은 그렇게 약 3달만에 완성되었다. 그 때부터 지속적인 디버깅 및 사전 작업이 진행되었고, 본격적으로 KRISTAL에 탑재된 것은 약 1년 후였다. 현재까지도 내가 개발한 한국어 형태소분석 시스템은 어디에다가 내놔도 부끄럽지 않을 정도라고 생각한다. 그러나 이제는 또다른 도전과제가 생겼다. 그것은 바로 기계학습이다.

by 스페이시스 | 2008/01/17 13:36 | 트랙백 | 핑백(1) | 덧글(1)
트랙백 주소 : http://spasis.egloos.com/tb/9507
☞ 내 이글루에 이 글과 관련된 글 쓰기 (트랙백 보내기) [도움말]
Linked at Korean morpheme .. at 2014/12/10 11:22

... Development history</a> Korean XTAG (UPenn) HAM (국민대) POSTAG/K (포스텍) Speller (부산대) UTagger (울산대) (No name) (고려대) Other NLP tools Language parser KoreanParser &#8211; By DongHyun Choi, Jungyeul Park, Key-Sun Choi (KAIST) Corpora Yonsei Corp ... more

Commented by 김찬욱 at 2008/05/30 16:27
안녕하세요.
글 잘 읽었습니다.
형태소분석기를 찾다가 페이시스님의 블로그까지 오게 되었습니다.
몇개 안되는 글을 읽다보니 대단하신 분이라는 생각이 드네요.^^ 우리말을 아주 사랑하는 분이라는 느낌도 들구요.ㅎㅎ
블로그 방문 기념으로 기사 한 편 소개 해 드릴게요.
http://blog.naver.com/realcyber/30015228309

cwkim79@naver.com

:         :

:

비공개 덧글






◀ 이전 페이지 다음 페이지 ▶



Text Mining, Natural Language Processing, Information Retrieval
by 스페이시스
메뉴릿
카테고리
전체
미분류
최근 등록된 덧글
안녕하세요. 글 잘 ..
by 김찬욱 at 05/30
와... 정말 대단하십..
by iaminsik at 02/02
정말 감사드립니다. ..
by 스페이시스 at 02/01
포스가 느껴집니다. ..
by woorung at 01/28
이제 정보분석 분야에..
by 김형준 at 01/28
최근 등록된 트랙백
He used to be a ga..
by Rambling gambling ..
Best web hosting.
by Website hosting.
Web hosting domain..
by Real estate web hos..
이전블로그
more...
이글루링크
이글루 파인더

rss

skin by teatime