답답함...

권불십년...아니 연불십년이다...

연구소 딱 10년째네...
이제 답답하기만 하다.
신규로 우째우째 프로젝트를 만들어서 올해 새롭게 시작하는 일이 있긴 하지만, 그래도 이 감출 수 없는 공허함.

아무 생각없이, 확 뛰쳐 나가고 싶은데,...
그러다 보면, 또 나를 가로 막는 거대한 무릎팍산들이 솟아오른다...

첫째는 학위.
둘째는 가족.
셋째는 뭐지????

"소리소문없이 강한" 이 아니라, 소리소문없이 빡센 ICU에 들어가서 정말 엄청 구르고...
이제 코스웍 다 끝나고 연구학점만 남은 상태에서...
그 나마 널널한 연구소 박차고 나가믄, 더이상 학위 포기라는 거 삼척동자도 다 아는 사실일테고...
그렇다고, 이 바닥에서 깐깐하기로 소문난 지도교수와의 피말리는 논문전쟁을 앞으로 2-3년 치르자니 앞이 정말 캄캄하고...

이제 정착할대로 정착해서 대전시티즌이 완죤 되어버린 우리 가족들에게 서울시티즌이 되어보지 아니하겠니??? 라고 물어보기가 너무나도 두렵고...(어무이 포함...ㅜㅜ)

아무래도 마지막은 왠지모를 막연한 "두려움"인 것 같다.
다들 주변 사람들은 나에게 절대 복지부동을 요구하며, 목에 핏발을 세운다.

"세상 그렇게 만만한기 아이니라~~~"
"남의 돈 뺏기 그리 쉬운 줄 아니???"
"니 나이가 몇인데???"
"어디서 받아준대???"
"시꺼~~~"

참나...~~~
나도 연구소 다니믄서 내공 나름대로 쌓았다고 생각드는데...
아닌 모양...

그래도 한번씩 파도처럼 밀려오는 이 답답함은 이 무더위와 함께 삼선짬뽕꼽배기가 되서 나를 괴롭힌다.

과연 어떻게 사는 것이 진정 잘 사는 것일까?

무지 간단한 개념을 무지 복잡한 수식으로 비비꼬아놓은 논문을 실오라기 하나하나 풀어가믄서 지쳐버린 채로 글을 쓰고 있다.

오늘은 정말 힘빠지는 날이다.

by 스페이시스 | 2008/07/30 22:04 | 트랙백 | 덧글(0)





패턴인식과 데이터마이닝!

요즘은 Kernel Theory에 미쳐있다.

머 미쳐있다고해서 전문가 수준은 아니고, 그냥 열심히 공부하는 수준?
내가 정한 계획으로는 5월까지 전처리기기(색인기, 자질생성기)가 포함된 범용 분류기가 완성될 예정이다. 물론 kernel 기반으로...

현재는 constraint convex optimizer를 개발하는데 있어서의 기반 이론 및 practical considerations에 대해서 공부중이다. 이 분야는 국내에서는 내가 알기로는 아직까지 이렇다할 성과가 나온게 없다. 기껏 해봐야 SVM light나 libsvm을 활용해서 분류나 기타 여러 어플리케이션에 적용하여 결과를 얻는 수준 정도.

전통적인 패턴인식은 크게 다음과 같은 과정을 거친다.
  1. 학습집합 수집
  2. 학습집합을 구성하고 있는 각각의 개별 데이터들에 대한 자질화(벡터화, Vectorization)
  3. 수치적 학습 수행(Numerical Training)
  4. 실험

커널이론이 나오기 전까지의 상황은 3단계인 수치적 학습에서의 여러 방법론들의 제약으로 인해서, 2단계인 자질화에 너무나도 많은 시간과 노력을 들였다는 것이다. 다시 말해서, 최적화되지 못한 학습기법에서 학습을 수행하기 위해서, 개별 데이터들의 자질들에 대한 최적화를 통해 이 약점을 극복했다는 것이다. 예를 들어, 예전에는 신경망을 통해서 이미지 패턴 인식을 하기 위해서 학습집합에 속한 이미지들의 전처리 (segmentation, factorization, smoothing 등)에 엄청나게 많은 노력을 기울였다는 뜻이다.

커널이론의 대표적인 어플리케이션인 SVM(Support Vector Machines)은 이미 모델 자체가 범용적으로 최적화되어 있고, 또한 속도 또한 빠르기 때문에, 이전의 방법에 비해서 자질화 단계가 많이 간소화될 수 있다.

일단 엔진이 완성되고 나면, 복합문서(Composite Documents, 이미지와 텍스트가 혼합된 문서)에 대한 분류를 수행해 보고자 한다. 문서 내에서의 특정 이미지의 자질적 파워는 매우 강력할 것으로 추측된다. 만일, 이 이미지에 대해서 1차 분류를 수행하여 그 분류결과를 활용하여 문서 전체에 대한 자질화에 활용한다면, 기존의 문서분류 및 유사도기반 검색모델에 비해서 매우 뛰어난 성능을 보일 것으로 생각된다.

스케쥴이 조금 앞당겨질 수도 있을 것 같다. 진도가 조금씩 빨라지기 시작했기 때문이다.


올해는 적어도 SCI급 2편은 써야 하는디...^^

by 스페이시스 | 2008/01/22 15:10 | 트랙백 | 덧글(4)





너 지금 뭐 하고 있냐?

대전 연구소에 있으면서 약 10년간...
초반에는 참으로 많은 러브콜(?)을 받았다.
물론 대부분 신생 벤처기업이있고, 그 중에는 지금도 꽤나 잘 나가는 회사도 있었다.
그러고 보면, 나도 참 인복이 많은 사람인가보네...^^

암튼...
그랬던 분들이 요즘 가끔씩 만나면 하시는 질문...

"너 요즘 뭐하냐? 그기서?"

그리고 나의 흐리멍텅한 대답...(사실 별 할 말도 없다.)

"그냥...머 하던일 하죠... 형태소분석기, 색인기, 언어처리기 등등요"

그러면 대부분 하시는 말씀...

"아이고... 아직도 그런거..."

그래... 난 아직도 그런거나 하는 사람이다. 남들 벌써 끝내고(?) 그만 둔 일을 나는 아직까지 하고 있다.
아니 하면 할 수록 더 애착이 간다.
과연 이게 잘못된 것일까?

정보검색, 언어처리, 기계학습 등...
이 바닥에서 기업에 계시거나, 사업하시는 분들... 사실 1년에 몇번 컨퍼런스나 회의 등등에 참석하시는거 외에는 진정 이 분야 자체에 대해서는 별로 관심이 없는 것 같다. (아닐 수도 있지만, 이건 내 느낌이니까...)
그 대신에, 요즘 각광받고 있다는 소위 잘나가는 분야들... 웹2.0 (친구 한놈은 자기가 지금 "웹40.0"하고 있다고 박박 우긴다..^^), 시맨틱웹, 소셜XXX, Collective XXX 등등...

물론 비즈니스 마인드에서 볼때, 이런 Wrapping은 매우 고무적일 수도 있으나, 그것도 기본적인 기술이 바탕이 될 때어야 한다. 정보검색이라는 분야가 너무나도 생소했던 1960년대부터 TREC과 WordNet을 만들고 이를 지속적으로 발전시켜온 미국이나 (나는 이 사실을 상기할때마다 정말 신기하다. 미국인의 뇌구조가... 과연 우리나라 같았으면???), 상업적으로 돌아가는 자국 형태소분석기 번번한거 하나도 없으면서, 자연어처리의 이론적인 분야에서 독보적인 입지에 있는 일본 등을 볼때, 나는 참으로 미래가 걱정된다. 결국은 또 CDMA처럼 퀄컴에 엄청나게 로열티를 주면서 "상용화"에 성공했다고 자화자찬하는 일이 벌어지지나 않을지... 스타크래프트 "활용(수입)" 공화국이라는 별로 내키지 않는 명예를 얻지나 않을지... 난 걱정된다.

오늘은 토요일임에도 불구하고 참으로 생각이 많은 날이다.

by 스페이시스 | 2008/01/19 23:57 | 트랙백 | 덧글(0)





한글 형태소분석기 개발 History

1998년도에 처음 연구소에 입사해서 약 2년 정도는 데이터와의 싸움이었다. 기관에 산재되어 있던 약 1,000만건 정도의 서지 데이터베이스의 품질을 높이는 작업을 진행하였다. 물론 지금 생각하면 천만건의 데이터가 그리 많아 보이지는 않지만, 당시로선 국내에서 그 정도 규모의 데이터를 보유한 기관이 흔치는 않았고, 그런 데이터베이스를 반자동으로 분석해서 오류수정 및 정형화를 한다는 것도 사실 불가능에 가까운 작업이었다. 데이터 작업을 해본 사람들은 알겠지만, 이 작업을 하다보면 하루에 디스크 몇 기가 쓰는건 일도 아니다. 나도 그 당시에 수도 없이 disk full을 내버려 운영담당자에게 싫은 소릴 많이 들었다. 암튼 이렇게 2년 정도를 작업하고 나니, 이제 몇백메가 정도의 텍스트 데이터 다루는 것은 우습게 보였다.(사실 텍스트로 몇백메가도 작은 데이터가 아닌데 말이다...ㅎㅎㅎ)

그 후에 다른 부서로 이동하게 되었다. 이 부서는 바로 그 당시로선 매우 획기적인 시스템인 정보검색엔진 KRISTAL을 개발하던 팀이었다. 참고로 그 당시에 현재 NHN CTO로 있는 이준호박사, 역시 NHN 검색팀장으로 있는 신중호씨 등이 있었다. 암튼 여기서 나의 새로운 일이 시작되었다. 그건 바로 한국어 형태소분석기 개발!

물론 그 당시에도 신중호씨가 개발한 형태소분석기가 있긴 있었으나, 포팅이나 속도 등의 부분에서 문제점이 있었다. 새로운 형태소분석기를 개발하기 위해서 가장 중요한 것은 바로 형태소 사전 구축 및 수집이었다. 현재도 자신만의 형태소분석기를 만들고 싶어 하는 많은 사람들이 처음부터 좌절하는 부분이 바로 이 사전 획득일 정도로 장벽이 매우 높다. 이 사전을 가지고 있는 사람들은 많이 있지만, 공식적으로 공개하는 사전은 별로 없다. 그러나 나는 운 좋게도, 현재 영산대학교 교수로 재직중이신 채영숙박사님께서 상당량의 사전을 제공해 주셨다. 원천사전 그대로를 활용할 수는 없기에, 도처에 산재되어 있던 사전을 수집하고 가공하기 시작했다. 이렇게 해서 모인 표제어가 약 15만개 정도.

다음은 사전탐색모듈 개발 작업이었다. 형태소분석기의 생명은 속도라고 생각한 나는 이 사전탐색모듈개발에 혼신을 기울였다. 형태소분석 단계에서 가장 빈번하게 활용될 수 있는 모듈이기 때문이었다. 변형 TRIE 구조를 기반으로 탐색속도를 최적화하기 위해 이를 지속적으로 고쳐나갔다. 결국 700,000어절/초 라는 속도를 내고서야 이 작업을 그만두었다.

분석모듈 자체개발은 그리 어렵지 않았다. 그 이유는 석사과정 당시에 한국어 철자검사교정기를 개발하였고, 약 11만 라인 규모의 소스를 거의 외우다시피 했기 때문이었다. 모든 분석단계가 머리에 남아 있으니, 그냥 그것을 구현만 하면 되는 작업이었다. 이 개발 작업을 진행하면서, 나도 나 자신에게 놀랐다. 왜냐하면 내 스스로도 이렇게까지 완벽하게 철자검사교정 알고리즘을 머리 속에 저장해두고 있었을 지는 몰랐기 때문이다.

형태소분석기 1차 버전은 그렇게 약 3달만에 완성되었다. 그 때부터 지속적인 디버깅 및 사전 작업이 진행되었고, 본격적으로 KRISTAL에 탑재된 것은 약 1년 후였다. 현재까지도 내가 개발한 한국어 형태소분석 시스템은 어디에다가 내놔도 부끄럽지 않을 정도라고 생각한다. 그러나 이제는 또다른 도전과제가 생겼다. 그것은 바로 기계학습이다.

by 스페이시스 | 2008/01/17 13:36 | 트랙백 | 핑백(1) | 덧글(1)





어제는 술을 한잔...ㅋㅋㅋ

오랜만에 어제는 술을 한잔 했다. (약 한달 반만인가? -_-;;)
서울에 계시던 친한 교수님께서 오셔서...(참고로 그 분은 술을 드시지 않으신다.)
이 분 참 대단한 분이다. 내 인생 얼마 살지는 않았지만, 정말 엄청난 마당발이시다.
학계는 물론 일반 업계에서도 사람이 끊이지 않고 늘 주변에 붐비는 분이시다.
그런 분을 알게된 것 만으로도 나는 참 행운이라고 생각한다.

술을 마시면서, 교수님께 돈 좀 벌어야겠다고 칭얼댔다...ㅎㅎㅎ
올해 들어서 정말 그런 생각이 간절하다.
어떻게 하면 돈을 벌 수 있을까?????

부자에 관한 책이나 자료들을 살피면서 느낀 점은 한 3가지 정도로 요약될 수 있다.
첫째, 부자들은 항상 밝고 긍정적이다. 매사에 언제나 밝고 진취적인 부분만 본다. 물론 정반대의 성격이나 성향을 가진 부자들도 있지만, 이런 사람들은 대부분 돈 외에 다른 부분에서 문제가 있는 경우가 많다. 내가 이야기하는 부자는 모든 면에서 완벽한 행복한 부자를 이야기하는 거고...
둘째, 부자들은 선천적 혹은 후천적으로 건강하다. 선천적으로 건강하면 따로 관리할 필요가 없겠으나, 후천적으로 건강해진 사람들은 엄청나게 자기관리를 하더라. 일단 육체적으로 문제가 생기면, 모든 일이 다 허사가 된다는 사실을 누구보다도 더 잘 아는 사람들이다.
셋째, 부자들은 부지런하다. 여기서 부지런하다라는 말은 거창한 것을 이야기하는게 아니다. Context Switching이 잘 된다는 뜻이다. 무슨 말이냐 하면, 한가지 일만 쭉 하면서 다른 일은 신경을 못쓰는 그런 사람들이 아니라, 여러가지 일을 하면서도 중심을 잃지 않는다는 뜻이다. 하나하나에 집중을 할 수 있다는 이야기지....

음... 이렇게 정리하고 나니까... 가능성이 있을 것 같기도 ㅎㅎㅎ

아직 술이 덜깬 상태에서 몽롱하게 글을 쓰니까 타이핑도 잘 안되네...쩝...

아무튼, 부자되기 프로젝트에 반드시 성공해야지...ㅎㅎㅎ
by 스페이시스 | 2008/01/17 11:22 | 트랙백 | 덧글(0)





◀ 이전 페이지 다음 페이지 ▶



Text Mining, Natural Language Processing, Information Retrieval
by 스페이시스
메뉴릿
카테고리
전체
미분류
최근 등록된 덧글
안녕하세요. 글 잘 ..
by 김찬욱 at 05/30
와... 정말 대단하십..
by iaminsik at 02/02
정말 감사드립니다. ..
by 스페이시스 at 02/01
포스가 느껴집니다. ..
by woorung at 01/28
이제 정보분석 분야에..
by 김형준 at 01/28
최근 등록된 트랙백
He used to be a ga..
by Rambling gambling ..
Best web hosting.
by Website hosting.
Web hosting domain..
by Real estate web hos..
이전블로그
more...
이글루링크
이글루 파인더

rss

skin by teatime