패턴인식과 데이터마이닝!

요즘은 Kernel Theory에 미쳐있다.

머 미쳐있다고해서 전문가 수준은 아니고, 그냥 열심히 공부하는 수준?
내가 정한 계획으로는 5월까지 전처리기기(색인기, 자질생성기)가 포함된 범용 분류기가 완성될 예정이다. 물론 kernel 기반으로...

현재는 constraint convex optimizer를 개발하는데 있어서의 기반 이론 및 practical considerations에 대해서 공부중이다. 이 분야는 국내에서는 내가 알기로는 아직까지 이렇다할 성과가 나온게 없다. 기껏 해봐야 SVM light나 libsvm을 활용해서 분류나 기타 여러 어플리케이션에 적용하여 결과를 얻는 수준 정도.

전통적인 패턴인식은 크게 다음과 같은 과정을 거친다.
  1. 학습집합 수집
  2. 학습집합을 구성하고 있는 각각의 개별 데이터들에 대한 자질화(벡터화, Vectorization)
  3. 수치적 학습 수행(Numerical Training)
  4. 실험

커널이론이 나오기 전까지의 상황은 3단계인 수치적 학습에서의 여러 방법론들의 제약으로 인해서, 2단계인 자질화에 너무나도 많은 시간과 노력을 들였다는 것이다. 다시 말해서, 최적화되지 못한 학습기법에서 학습을 수행하기 위해서, 개별 데이터들의 자질들에 대한 최적화를 통해 이 약점을 극복했다는 것이다. 예를 들어, 예전에는 신경망을 통해서 이미지 패턴 인식을 하기 위해서 학습집합에 속한 이미지들의 전처리 (segmentation, factorization, smoothing 등)에 엄청나게 많은 노력을 기울였다는 뜻이다.

커널이론의 대표적인 어플리케이션인 SVM(Support Vector Machines)은 이미 모델 자체가 범용적으로 최적화되어 있고, 또한 속도 또한 빠르기 때문에, 이전의 방법에 비해서 자질화 단계가 많이 간소화될 수 있다.

일단 엔진이 완성되고 나면, 복합문서(Composite Documents, 이미지와 텍스트가 혼합된 문서)에 대한 분류를 수행해 보고자 한다. 문서 내에서의 특정 이미지의 자질적 파워는 매우 강력할 것으로 추측된다. 만일, 이 이미지에 대해서 1차 분류를 수행하여 그 분류결과를 활용하여 문서 전체에 대한 자질화에 활용한다면, 기존의 문서분류 및 유사도기반 검색모델에 비해서 매우 뛰어난 성능을 보일 것으로 생각된다.

스케쥴이 조금 앞당겨질 수도 있을 것 같다. 진도가 조금씩 빨라지기 시작했기 때문이다.


올해는 적어도 SCI급 2편은 써야 하는디...^^

by 스페이시스 | 2008/01/22 15:10 | 트랙백 | 덧글(4)
트랙백 주소 : http://spasis.egloos.com/tb/17050
☞ 내 이글루에 이 글과 관련된 글 쓰기 (트랙백 보내기) [도움말]
Commented by 김형준 at 2008/01/28 14:58
이제 정보분석 분야에 발을 들일까 말까 고민중에 있는 개발자입니다. 좋은 글 감사합니다.
Commented by woorung at 2008/01/28 15:02
포스가 느껴집니다. 앞으로 종종 와야겠네요.. ^^
Commented by 스페이시스 at 2008/02/01 10:56
정말 감사드립니다. 이렇게 관심가져주시고, 댓글까지 주셔서.... 두 분의 블로그를 둘러보니, 제 블로그가 너무나도 초라하다는 느낌...^^; 앞으로 열심히 따라가야겠어요.
Commented by iaminsik at 2008/02/02 21:33
와... 정말 대단하십니다.
저는 지금 형태소 분석기를 개발중인데, 후보군을 내고나서 필터링을 하고 있습니다.
종종 들르겠습니다.

:         :

:

비공개 덧글






◀ 이전 페이지 다음 페이지 ▶



Text Mining, Natural Language Processing, Information Retrieval
by 스페이시스
메뉴릿
카테고리
전체
미분류
최근 등록된 덧글
안녕하세요. 글 잘 ..
by 김찬욱 at 05/30
와... 정말 대단하십..
by iaminsik at 02/02
정말 감사드립니다. ..
by 스페이시스 at 02/01
포스가 느껴집니다. ..
by woorung at 01/28
이제 정보분석 분야에..
by 김형준 at 01/28
최근 등록된 트랙백
He used to be a ga..
by Rambling gambling ..
Best web hosting.
by Website hosting.
Web hosting domain..
by Real estate web hos..
이전블로그
more...
이글루링크
이글루 파인더

rss

skin by teatime