국어 정보처리 기술은 지식사회로 가기 위한 기반기술이다. 이 분야를 전문으로 연구하는 대학과 연구소 및 기업들의 기술수준은 어느 정도인가. 이러한 질문에 실질적인 답을 줄 수 있는 경연대회가 지난 8월 30일 개최돼 국내외의 이목을 집중시켰다.
한국전자통신연구원(ETRI) 주최로 치러진 「제1회 형태소분석기 및 품사태거 평가대회(MATEC 99)」 에는 충북대·포항공과대·부산대·연세대·도쿄대 등 11개 대학의 관련학과와 LG종합기술원·마이크로소프트·히타치 등 국내외에서 총 15개팀이 참가했다.
참가팀들은 ETRI에서 제공한 품사부착 말뭉치를 기반으로 정보검색에 필요한 명사추출기와 자연언어처리의 기본 요소기술인 형태소분석기, 품사 태거(자동 품사판별기) 등의 분야에서 실력을 겨루었다.
각 팀의 평가결과는 비공개 원칙에 따라 개별통보를 했지만 분야별 최고수준이 명사추출의 경우 약 95%(재현율 94%, 정확률 95%), 형태소분석기의 경우 약 98%(재현율), 품사태거의 경우 약 92%(정확률)의 정확도를 보여준 것으로 나타났다.
이번 대회는 평가대회로서 기술수준의 현주소를 파악한다는 목적으로 치러졌지만 사실 더 큰 의미는 다른 곳에 있다. 무엇보다 품사 표준화를 위한 의미있는 첫걸음을 내디뎠다는 것이다. 그동안 품사체계 정립은 연구기관이나 기업마다 각각의 체계를 정립해 왔고 이 때문에 국어 정보처리 연구가 본격적인 활성화로 가기 위해서는 품사 표준화가 핵심 선결과제라는 것이 전문가들의 한결같은 지적이었다.
ETRI는 정보통신부의 지원하에 「자연어 정보처리 기술 표준화」 프로젝트를 추진해 왔으며 그 결과물로 나온 품사표준안을 이번 평가대회에 적용했던 것이다. 이번에 적용된 품사표준안이 학계나 업계에 정식 표준안으로 받아들여진 것은 아니지만 향후 품사표준안 마련의 전초를 제공했다는 점에서 충분한 의미를 갖고 있다.
또한 이번 대회는 국내에서 치러진 자연어처리 분야의 첫 평가대회였다는 점도 향후 이 분야 연구의 분위기 조성에 기여할 것으로 기대된다. 한편 이번 평가대회의 최종 결과보고서는 오는 8일 전북대에서 개최되는 한글날 기념 「제11회 한글 및 한국어 정보처리 학술대회」에서 발표된다. 대회관련 정보(aladin.etri.re.kr/∼nlu/STANDARD/matec99.html)
김상범기자