정보통신기술이 발달할수록 인간의 오감을 자극하는 휴먼인터페이스기술이 필요하다. 그 중에서도 음성정보처리 연구 분야는 청각을 자극하는 목소리의 발생과 재현을 바탕으로 하고 있다. 국내의 음성정보처리연구는 지난 78년도부터 시작됐으며 그 당시에는 외국기술을 주로 한국어에 모방하는 단계였다.
과기원의 은종관 교수 연구팀과 서울대의 안수길 교수 연구팀에서 한국어 음성정보처리를 처음 시작했고 83년에는 연세대 박규태 교수 연구팀과 명지대 최갑석 교수 연구팀에서 그리고 85년부터는 고려대 이태원 교수 연구팀이 합류했다. 최근에는 오영환 교수, 김순협 교수, 배명진 교수, 정현열 교수, 이황수 교수, 임운천 교수, 김형순 교수, 조철호 교수 등이 이 분야의 연구에 몰두하고 있다.
기업부설 연구소나 국가출연 연구소에 소속된 연구진의 대부분은 초기 대학부설연구소에서 배출된 연구진으로 구성돼 있다. 정부출연연구소 출신으로는 한국전자통신연구소(ETRI), SERI 등에서 김경태 박사, 이용주 박사 등이 주도하다가 지금은 양재우 박사, 이영직 박사, 박준 박사 등이 연구를 이끌고 있다. 또 음성정보처리분야는 상용화가 전제된 기술이기 때문에 벤처창업으로 전환이 급속하게 이뤄지고 있다.
▲대학부설 연구소 소속의 연구진
광운대학교 김순협 교수는 지난 83년 3월 연세대학교 대학원 전자공학과에서 국내 처음으로 ‘한국어 음성인식 시스템 개발에 관한 연구’로 박사학위를 취득한 후 초창기 국내 음성 인식분야의 기틀을 마련했다. 이어 연속어 음성인식과 연결 숫자음에 관한 연구를 통해 이를 응용분야에 접목하는 데도 성공했다. 96년에는 자동차 편이장치를 음성으로 제어하는 시스템을 개발했고 CD롬 타이틀을 음성 명령어로 제어하는 시스템을 개발하면서 벤처기업 연구소를 설립하기도 했다. 이 연구소에서 김 교수는 음성인식을 이용한 주식거래 시스템을 개발하고 있으며 연속음성인식 엔진도 개발하고 있다.
특히 김순협 교수는 음성정보처리 기술의 주요 국제학술대회인 ‘ICSP2003’과 ‘ICSLP2004’ 국내 유치위원장직과 조직위원장직을 겸하면서 음성정보처리 기술분야의 경쟁력을 국내외적으로 격상시키고 이를 통해 기술 연구를 위한 국내외 네트워크 구축에 기여하고 있다. 인재양성에 많은 노력을 기울여 김 교수는 그동안 음성정보처리 분야에서 박사 15명, 석사 85명의 전문인력을 배출했다.
숭실대 배명진 교수는 음성통신연구소를 운영하면서 이 분야에서 100명 이상의 석박사급 전문연구인력을 배출한 인물이다. 음성정보처리에 대한 과학이론과 상용기술을 접목해 500여편의 국내외 학술논문발표와 150여건의 실용적인 국내외 발명특허를 출원등록했다. 지난 95년부터 한국음향학회에서 학술위원장을 맡으면서 음성정보처리 분야에서의 연구결과를 발표·시연하는 음성통신학술대회, ICSP2003 등의 국내외 학술발표대회를 주관해오고 있다.
99년부터는 문화관광부가 선정한 신지식인으로 활동하고 있으며 산자부·정통부·과기부 등의 전문연구 분과에서 전문위원으로 활약하고 있다.
지난 93년부터 6년 동안은 ETRI 반도체연구개발단과 공동으로 휴대폰용 저전송률 음성압축 알고리듬의 기술개발에 대해 창의적인 연구를 수행해 수십 건의 발명특허와 학술논문을 발표했다.
지난해부터는 정통부의 음성정보처리연구센터(SITRC)의 2세부과제 책임자를 수행하면서 발성변환 및 처리기술을 상용화하는 목소리 DNA합성기의 개발에 주력하고 있다.
영남대 정현열 교수는 영남대를 졸업 후 지난 89년 일본 도호쿠대에서 한국어 음성의 분석과 인식에 관한 연구를 수행해 박사학위를 취득했다. 이후 영남대에 근무하면서 한국어 음성의 분석과 인식·화자인식 등 음성 신호처리 관련 기술에 관한 연구를 지속적으로 수행해 오고 있다. 최근 음성 및 오디오 신호처리뿐만 아니라 비디오 신호와 같은 다양한 멀티미디어 신호처리와 차세대 인터넷 관련 기술로 그 연구 영역을 확대해 가고 있다.
또 정 교수는 지금까지 음성처리에 관한 연구 중 HMNet을 이용한 연속음성인식·음성/문자 공용 인식·멀티모덜 정보단말기에 관한 연구를 기반으로 현재 영남대 ITRC의 ‘차세대 인터넷 QoS 보장형 망 관리기술’의 세부과제 책임자로 참여하고 있다. ITRC는 정보통신부에서 24개의 대학 전문 연구센터를 지정하여 4년간(2000∼2003년) 각 연구센터에 매년 4억원의 연구비를 지원하는 과제로 QoS 보장을 위한 지능형 멀티미디어 단말기·QoS 보장형 멀티미디어 검색기 기술·워터마킹 기술을 이용한 멀티미디어 데이터의 QoS 관리기술에 관한 연구를 수행하고 있다.
원광대 이용주 교수는 지난 92년 고려대학교에서 반음절단위 LSP방식에 의한 한국어음성의 규칙합성에 관한 연구를 통해 박사학위를 취득한 인물로 국내 음성정보기술의 토대를 닦은 초창기 멤버다.
이미 85년에 일본 도호쿠대학 응용정보학연구센터에서 음성인식분야에 대한 방문연구원으로 재직했던 이 교수는 현재 원광대학교 전기전자 및 정보공학부 교수를 역임하고 있다. 이와 함께 산업자원부 지정 ‘음성정보기술산업지원센터’를 운영하고 있으며 음성정보기술산업협회와 음성정보기술표준화포럼 운영위원으로도 활동하고 있다.
이 박사는 지난 91년 자동통역전화를 위한 요소기술 개발에 관한 연구의 한국통신과제책임자를 역임했으며 94년부터는 ETRI에서 대화체음성번역을 위한 대화음성의 수집 및 분석에 관한 연구를 진행했다. 95년에는 음성영상 및 텍스트데이터의 상호동기 및 고속검색에 관한 연구를 진행했으며 98년에는 삼성전자의 연구책임자로 정보관리용 음성명령어 데이터베이스 구축에 관한 연구를 진행했다.
2000년에는 산자부의 연구책임자로 음성처리산업의 국내외 동향 및 발전방안을 내놓았으며 같은해 8월에는 정통부의 지원으로 음성 및 자연어 인터페이스 의미기반 정보검색시스템을 개발했다.
▲정부출연연구소 소속 연구진
이영직 박사는 지난 90년부터 ETRI에서 음정정보처리 핵심기술개발에 주력해 오고 있다.
초기에는 일본 KDD 및 KT와 함께 ‘자동통역 전화를 위한 요소기술개발’ 과제를 수행해 호텔예약 분야의 한일 자동통역 기술을 개발했다. 95년부터 미국 카네기멜론대학을 비롯한 국외의 음성분야 유수 연구기관과 공동으로 여행계획 분야의 다국간 자동통역 기술을 개발했으며 지난 99년에는 한·영·일·불간 자동통역 시연에도 성공했다. 이 과정에서 개발한 한국어 단어인식 기술, 무제한 어휘 한국어 음성합성 기술 및 음성 데이터베이스를 36개 업체, 62개 대학에 전수했다.
21세기 초반부터 음성정보처리 산업시장이 열리기 시작하면서 정보통신부에서는 이 분야를 적극 육성하고자 ETRI에 음성정보연구센터를 설립하고 이 박사는 센터장으로 근무하고 있다. 음성정보처리 분야 발전의 가장 큰 어려움이 양질의 대용량 음성 데이터베이스라는 산업계의 요청에 따라 이 센터에서는 한국어 음성 데이터베이스를 주로 구축하고 있으며, 통신망 환경에서의 한국어 숫자음인식 및 낭독체 음성인식 연구도 병행하고 있다. 또 해외를 여행하는 경우에 도움을 줄 수 있는 다국어 음성통역 기술의 개발도 국제공동연구 형태로 꾸준히 개발하고 있다.
▲기업체부설 연구소 소속의 연구진
한국통신 부설연구소 구명완 박사는 한국과학기술원에서 음성인식분야로 박사학위(지도교수 은종관)를 받은 후 91년부터 현재까지 KT에서 음성인식·합성 관련 연구와 이를 이용한 서비스 개발에 주력을 하고 있다. 구 박사는 91년부터 95년까지 일본 KDD, ETRI와의 호텔예약을 위한 자동통역에 관한 국제공동연구를 수행했다. 그 결과 95년 5월 16일에는 KT 연구개발본부에서 일본 KDD와 호텔예약을 위한 자동통역 국제시연을 성공리에 수행했다.
또 음성 다이얼 서비스개발을 시작해 88년부터 시범서비스(1577)를 개시했으며 올해 2월부터는 이를 1588-0114번으로 변경해 서비스하고 있다. 2000년부터는 선도기반기술연구(대화형 음성언어 인터페이스 소프트웨어개발)를 4개 기관과 공동으로 수행(총괄 책임자)하여 인터넷 정보를 음성으로 입출력할 수 있는 VXML기반 음성언어시스템을 개발해 시험운용하고 있다. 이 과제를 통해 음성인식, 합성기술뿐만 아니라 VXML 해석기, VXML 에디터가 통합된 음성언어 서비스 시스템을 개발했다.
지난 6월부터는 음성인터넷 서비스 경연대회 및 기술 워크숍을 주관해 개발된 시스템을 이용한 서비스 공모 및 관련 기술을 소개하며 국내의 음성인터넷 활성화를 주도하고 있다.
보이스웨어 이윤근 박사는 98년 KAIST 정보통신공학과에서 음성신호처리 연구로 박사학위를 받은 후 LG기술원의 책임연구원을 거쳐 현재 보이스웨어 연구소장으로 재직하고 있다. 이 박사는 80년대 후반 국내에서 음성기술의 상용화를 위한 연구가 시작되는 초창기부터 LG기술원에서 음성 기술 연구를 수행했다. 89년 국내 최초로 포먼트를 이용한 음성합성기 상용화에 성공해 LG PC에 탑재했으며 이후 가변어휘 인식기와 고품질 한국어 TTS를 개발해 본격적인 상용화를 앞당겼다.
99년 말에는 국내 최초의 음성기술 전문 벤처인 보이스웨어 설립에 참여했으며 2000년 연구소장으로 정식 합류했다. 보이스웨어 연구소는 인간의 자연스러운 말을 인식하는 ‘연속어 인식기(VoiceEz)’와 인간의 음성과 매우 유사한 품질의 ‘코퍼스기반 합성기(VoiceText)’를 개발해 보이스웨어를 국내 마켓 1위 업체로 자리매김하는데 기여했다.
2001년에는 국내 최초로 영어 TTS인 ‘보이스텍스트잉글리시(VoiceText-English)’를 개발해 미국 현지에서 호평을 받고 있으며 현재는 본격적인 해외 진출을 위해 일어·중국어 등 다국어 엔진을 개발하고 있다.
메텔연구소 이성권 박사는 80년 후반부터 음성인식에 대해 첫 연구를 시작, 90년대 초반에 한국과학재단의 ‘맨머신 인터페이스를 위한 음성신호처리의 응용 연구’를 지속하고 있다.
또 ETRI의 ‘음성 입출력 기반 기술 연구’ 및 ‘대용량 통신처리 시스템에서의 지능형 인터넷 서비스 개발’ 프로젝트에 참여해 음성인식과 통신 시스템과의 연계성에 대해서도 지속적인 연구를 수행하고 있다.
현재 텔레메틱스 분야가 주목받고 있는 요즘 이미 90년대 중반 기아자동차와의 ‘차량용 음성인식 장치 개발’ 프로젝트를 수행하면서 차량용 음성인식기 개발에 기반을 다지기도 했다. 99년에 메텔에 창립 멤버로 발을 들여놓은 후 개발팀장으로 현대증권 음성인식 거래 시스템인 ‘보이스톡’을 개발했다. 보이스톡은 국내 최초이자 최대 규모의 음성인식을 적용한 주가 조회 및 거래 시스템으로 그 의의가 크다. 이와 함께 지난해에는 메텔 연구소장으로 한국관광공사에 음성인식 관광안내 시스템을 개발했으며 ‘Speck2Call’이라는 음성인식 자동교환 시스템을 개발하여 KBS, MBC 등에 공급했다.
<윤대원기자 yun1972@etnews.co.kr>