[ITRC, 최고 IT개발을 꿈꾼다](6)전북대 정보검색시스템연구센터

관련 통계자료 다운로드 정보검색 시스템 개발 추진체계

전북대 정보검색시스템연구센터(IRSRC:Information Retrieval System Research Center 센터장 안동언 전자정보공학부 교수)는 미래의 지능형 정보검색시스템을 주도할 기술개발을 위해 지난 2000년 2월 설립됐다.

 이 센터(http://irsrc.chonbuk.ac.kr)에는 전북대를 주축으로 원광대·전남대·우석대·동신대·전주교육대·서해대·정인대 등의 교수들과 석·박사과정 학생 등 24명이 연구진으로 참여하고 있다. 안동언 교수가 연구책임자이며 전북대 전자정보공학부 박순철·양재동·김종교·이용석·오일석 교수 등이 세부과제 책임을 맡고 있다.

 센터의 주요 연구과제는 ‘음성 및 자연어 인터페이스 의미 기반 정보검색 시스템’. 이미지 정보들에 대한 개념과 감성에 기반을 둔 자연어와 음성 질의를 통해 정보검색을 수행할 수 있는 지능형 이미지 정보검색시스템을 설계하고 그 원형을 상용화하는 것을 최종 목표로 삼고 있다.

 기존 검색엔진은 정해진 키워드만을 질의어로 사용해 이용자가 찾고자 하는 문서나 이미지에 대한 정확한 사전 지식을 요구해 많은 불편과 제약이 뒤따랐다.

 그러나 IRSRC가 개발중인 이 시스템은 음성 또는 자연어를 기반으로 한 감성적인 또는 개념적인 질의어를 입력할 수 있도록 함으로써 이용자가 찾고자 하는 문서나 이미지에 대한 정확한 사전 지식이 없더라도 원하는 검색결과를 얻을 수 있도록 하는 것이다.

 이 시스템을 개발하기 위해서는 이용자의 음성을 인식하는 모듈과 인식된 음성이나 애매 모호한 단어에서 의미있는 용어를 추출하는 모듈 그리고 문서 영상에서 직접 단어를 검색하는 모듈이 필요하다. 센터는 이에 따라 크게 음성 및 자연어 인터페이스 분야와 정보검색 분야 등 2개의 세부과제로 나눠 연구를 진행중이다.

 제1세부과제인 음성 및 자연어 인터페이스 정보검색 분야는 이미지 정보들을 개념과 감성에 기반해 질의 및 검색을 수행할 수 있도록 지능형 이미지 정보검색시스템을 설계하고 그 원형을 개발하는 데 주안점을 뒀다. 이를 위해 이미지내에 존재하는 객체들의 특성을 이용, 주석을 자동으로 생성하는 자동 주석 생성기와 질의에서 입력되는 감성 용어와 개념 용어를 처리하는 시소러스(thesaurus) 구성을 개발하고 있다.

 또 응용영역에 따른 지식에 퍼지(fuzzy) 이론을 적용해 퍼지 규칙으로 이뤄진 지식베이스를 구축하고 사용자 질의의 평가 및 검색 과정에서 기존의 이미지 정보검색시스템보다 한층 진일보된 지능적인 검색기능을 제공하는 데 주력해왔다.

 제2세부과제인 음성 및 자연어 인터페이스 분야는 음성 인터페이스를 위한 효과적인 연속 음성 인식시스템의 구현을 최종 목표로 한다. 이를 위해서는 제한적인 범위내에서의 음성질의에 대한 정보검색을 위한 음성 코퍼스(corpus:말뭉치)를 구축하고 정보 검색에 필요한 연속음성의 음소열 추출기와 음성자동 분절기의 구현이 필수적이다.

 또 가능한 한 많은 양의 연속음성이나 명령어에 대한 음성 데이터를 광범위한 화자(話者)집단으로부터 수집하고 DB화하는 작업도 병행하고 있다. 이와함께 프로토타입 모델로 보다 체계적이고 완벽한 질의처리를 위해 인식어휘 수의 증가를 위한 모델과 인식방법을 선정하고 데이터내에 존재하는 배경잡음과 채널왜곡 등을 줄이려는 연구도 추진하고 있다.

 특히 센터는 인식어휘에 대한 음성 DB를 제작하고 높은 인식률값을 갖는 실시간 연속 음성 인식기를 구현해 자연어 음성에 대한 의미기반 정보검색이 가능하도록 연구력을 집중하고 있다. 이 분야는 음성 및 자연어 인터페이스와 각종 감성 시소러스를 바탕으로 대화체 문장 형태소 분석기와 파서(parser) 개발이 핵심기술이다. 또한 감성 어휘를 수집해 색상·질감·모양 등 감성 용어 시소러스를 토대로 감성에 기반한 지능형 정보검색이 원활하게 이뤄지도록 하는 용어수집과 시소러스 편집기를 개발중이다.

 1차연도(2000년 8월∼2001년 7월)에 세부 요소기술 및 모듈개발을 끝마쳤고 2차연도(2001년 8월∼2002년 7월)에는 세부 모듈을 통합해 정보검색시스템 기술이전 및 상용화에 박차를 가하고 있다. 이를 위해 센터는 각 세부 모듈의 시스템 구성도와 기능, 요소기술, 입·출력을 정의하고 인터페이스를 결정, 통합하는 과정을 추진하고 있다. 이어 3차연도(2002년 8월∼2003년 7월)에는 통합 정보검색시스템을 보완하고 확장할 계획이다.

 지금까지 수행한 연구결과물로 △Fuzzy SQL(FSQL) 처리기 △퍼지 용어 기반의 지능형 에이전트 △정보검색을 위한 한국어 해석 시스템 △어문 규정 검색통합 시스템 △남북한 언어 비교 사전 검색 시스템 △한글문서 검색 시스템 △콘도르 △객체-기반 시소러스 관리기(OTM) △연속 음성 인식 시스템 △싱글 디스플레이어(signal displayer) △사용자 정보를 이용한 퍼지 정보검색 시스템 △문서영상 검색 시스템 △정보검색을 위한 한국어 질의처리 시스템 등의 소프트웨어를 개발했다.

 이 가운데 민간업체인 서치라인과 미국 카네기멜론대의 언어기술연구소와 산학 및 국제협력을 통해 검색엔진인 ‘콘도르’를 공동으로 개발, 지난 2월 제품 및 기술설명회를 갖기도 했다. 콘도르는 대부분의 정보검색 엔진이 기술적인 한계를 이유로 구현하지 못했던 웹 검색 분야와 기업용 내부 검색분야를 하나의 제품으로 통합 구현시켰으며 문서분류와 요약 기술이 포함된 세계 최고 수준의 기술로 평가받고 있다.

 안동언 센터장은 “새로운 정보검색시스템 개발뿐만 아니라 학술정보 교류와 기술이전, 상용화를 위해 활발히 산학협력을 추진하고 세미나 등 학술행사를 개최하고 있다”며 “첨단 정보검색기술을 선보일 수 있는 테스트베드가 될 수 있도록 센터 운영에 최선을 다할 것”이라고 말했다.

 <전주=김한식기자 hskim@etnews.co.kr>