한글정보검색시스템의 어제와 오늘
황호정(한컴 자연어처리팀 연구원)
현재 관심이 집중되고 있는 인터넷은 흔히 정보의 바다라고 불린다. 이러한 인터넷 항해의 등대가 되는 것이 바로 정보검색 시스템이다.
본 세미나에서는 인터넷 초보자를 중심으로 웹 정보검색 시스템에 대해 소개해 보고자 한다.
정보검색 시스템은 정형화된 정보를 처리하는 기존의 데이터베이스와 달리非정형 정보를 처리해 주는 시스템으로 다량의 정보 속에서 사용자가 필요로하는 정보를 정확하게 검색하기 위하여 반드시 필요하다.
기술 발전이 우리 보다 훨씬 앞서서 진행되고 있는 외국의 몇 가지 정보검색 시스템에 대해 알아보자.
대표적인 외국의 정보검색 시스템으로 알려진 야후(YAHOO)는 분류서비스를제공한다는 것이 두드러진 특징이며 라이코스(LYCOS)는 방대한 문서를 가지고 있다는 점 그리고 알타비스타(Alta Vista)는 다국어(여러 나라의 언어)를지원한다는 것이 가장 큰 특징이다.
이러한 외국의 정보검색 시스템들은 영어라는 언어를 중심으로 구성되어있기 때문에 한글을 처리하는 데는 많은 한계가 있다.
알타비스타가 다국어를 지원하고 있기는 하지만 1바이트 문자를 지원하는방식이므로 정확한 검색이 이루어지고 있지는 않다.
따라서 이러한 시스템을 이용해 한글 정보를 검색하는데는 무리가 따르며이로인해 한글을 올바로 처리하는 시스템이 요구되어 왔다.
위와 같은 문제점들을 해결하기 위하여 한글과컴퓨터는 심마니를 개발했다. 이 프로그램이 탄생되기 전(또는 탄생 이후)에 국내에 몇 가지의 다른한글 정보검색 시스템들이 존재해왔다. 그 대표적인 예가 大邱大의 「까치네」, 忠南大의 「Kor-Seek」, 한국통신의 「정보탐정」 등이다.
까치네는 많은 양의 문서를 가지고 있다는 것이 두드러진 특징이며 Kor-Seek는 분류서비스를 제공한다는 점 그리고 정보탐정은 빠른 검색을 제공한다는게 특징이다.
심마니는 한글처리의 최고봉이라 할 수 있는 한글과컴퓨터의 기술력으로탄생되었다. 이러한 기술력은 최우수 한글 워드프로세서인 「아래한글」에서잘 나타나 있다(한글표현법, 정교한 맞춤법, 편리한 빠른교정 및 자동한영전환 기술).
심마니는 탄생 이후 지금까지 매우 다양한 기술들을 추가하여 제공하고 있다. 자연어 질의어 제공, 한글 영어 유의어 확장검색, 발음 유사성에 의한확장검색, 맞춤법 오류 교정 검색, 빠른 보기 제공, 자동문서분류 등의 검색서비스와 사랑방, 검색 단어 Top-10, 검색 홈페이지 Top-10, 유의어 찾기 등의 부가 서비스가 바로 그것이다. 또한 새로이 선보이는 분류서비스는 매우많은 양의 정보를 보다 일목요연하게 보면서 검색할 수 있도록 지원한다. 이는 기존의 전문검색과 함께 이용되어 매우 효과적인 인터넷 정보검색을 가능하게 할 것이다.
심마니는 앞으로 보다 많은 정보 서비스, 보다 나아지는 검색 기능, 개인별 정보 관리, 지능형 웹 로봇, 세련된 자연어 질의어 분석기 등을 통하여사용자들의 관심에 보답할 것이며 보다 쉽고 정확한 인터넷 사용 환경을 제공해 나갈 것이다.