◆21세기 디지털 정보사회의 급진전은 세계적 첨단연구소들이 생활속의 정보화에 눈뜨게 했다. 가장 주목받는 분야 중 하나로 자동음성번역시스템 기술개발을 빼놓을 수 없다. 이같이 음성을 음성으로 즉시 번역해주는 기술의 연구는 언어학·음운학·SW기술 및 전자·정보통신 HW의 발달에 힘입어 급진전하고 있다. 그 나라 말을 모르고 외국관광에 나서 자국말로 대화하더라도 기계의 도움으로 현지인과의 대화를 자국인과 대화하는 것처럼 도와주는 다양한 언어기반의 정보통신단말기 출현이 5년 앞으로 다가오고 있다. 실시간 언어통역시스템 연구로 주목받는 일본의 ATR, 동경대 및 NTT연구소, 미국의 MIT링컨연구소, 카네기멜론대 등을 찾아 이 분야의 첨단연구 동향을 살펴보았다. 편집자◆
지난 86년 통신기술의 기초기반기술 확보 및 신규 원천기술 개발을 목표로 설립된 일본 교토 소재 ATR(Advanced Telecommunication Research Institute International)는 특정목표와 기한을 설정해 5년 내지 7년 동안 연구개발을 추진한 후 자동 해체된다. ATR의 정규직 연구인력이 전체 연구원의 15%도 안되는 35명에 불과한 가운데 나머지를 기업체 및 국내외 초빙연구원으로 구성하고 있는 것도 이같은 특징을 반영한다. 업체 파견연구원은 연구기한을 마친 후 소속업체로 돌아가 그간의 연구성과를 상용화한다.
ATR 산하 4개 연구소 가운데 ATR음성언어통신연구소는 전세계적으로 가장 주목받고 있다. 한 언어로 발화된 말을 다른 언어의 음성으로 즉각 번역해주는 소위 음성언어번역의 연구를 기반으로 다른 나라 사람들끼리 기계를 매개로 한 자국의 언어만을 사용하더라도 대화를 할 수 있도록 연구를 진행중이다.
ATR는 이를 위해 이미 지난 86년 이래 2차례의 프로젝트를 마치고 기술가능성 검증 및 일상 생활속의 대화체음성 처리기술을 확보했다. 지난 2월에는 음성언어번역 기술의 실제 상용화를 목표로 음성언어통신연구소(ATR-SLT : Spoken Language Translation Research Laboratories)를 설립했다. 여기엔 향후 5년간 100억엔의 연구비가 투입된다.
이들이 추진하고 있는 음성언어번역 기술은 일어-영어간 양방향 음성언어번역시스템. 일본어 음성을 한국어·영어·독일어·중국어의 4개국어 음성으로 동시통역해 시연할 수 있는 수준에 도달해 있다.
이들 시스템의 연구는 외국을 여행하는 여행자에게 현지인과 똑같은 수준의 서비스를 받도록 하자는 데서 시작됐다. 외국의 여행사 직원과 고객 사이에서 여행을 계획하면서 나눌 수 있는, 어느 정도 형식화할 수 있는 약 5000어휘로 구성된 호텔예약·관광상품 안내 등의 내용을 통역해 준다.
일본어-영어 통역의 경우를 예로 들어보면 △일본어 음성을 처리해 일본어 텍스트로 변환하는 음성인식 단계 △일본어 텍스트를 영어 텍스트로 번역하는 기계번역 단계 △영어 텍스트의 내용을 영어 음성으로 발성하는 음성합성 등의 3단계를 차례로 거친다.
ATR음성언어번역시스템의 특징은 음성인식 모듈에서는 일차적으로 음소인식을 수행, 오류가 발생한 부분에 대한 음향모델을 재훈련하는 방법을 고안해 사용하고 있다는 점이다. 발화자에 따라 다른 음성 특성에 적응할 수 있으며, 여러 발화자의 음향모델을 기억하고 있다가 입력된 음성에 가장 가까운 음향모델을 선택해 사용할 수 있는 게 특징이다. 또 대화체 발화에서 많이 등장하는 비문법적 문장의 입력을 처리하기 위해 번역모듈에 TDMT(Transfer-Driven Machine Translation) 방식도 채택하고 있다. 실제 사용되는 방대한 양의 다양한 대화체 문장을 수집·분석해 자주 나타나는 구문 유형을 추출하고, 대응되는 다른 언어의 구문 유형과 함께 저장해 구문별 등록 유형과 입력문장을 대응시켜 번역해 나가도록 했고 구문 유형도 추가할 수 있다.
기기개발에 사용되는 합성모듈은 ATR연구소의 연구성과로 꼽히는 이른바 「CHATR 음성합성시스템」이다. 이 시스템은 자연스럽고 개성적 음성을 출력할 수 있도록 운율의 추출 및 생성 기술과 합성단위 선정에 따른 신호처리 기술개발을 적용하고 있다. 이 연구의 산물인 통합모듈기술은 입력음성의 휴지구간을 탐지해 구별하고, 운율정보를 바탕으로 평서문의 형태라도 의문문으로 인식, 처리할 수 있게 했다. 또 문장이 나타내는 의미정보를 기반으로 문맥을 분석하고 이를 인식 후보군에 우선 반영, 인식 성능을 높이도록 했다.
이러한 음성합성시스템의 수준은 미국의 AT&T, 일본의 옴론사, NTT-소프트사 등이 상용화에 적용할 정도로 인정받고 있으며, 목소리를 통해 감정을 잡아내는 제품개발에도 활용될 정도라고 한다.
ATR연구소는 특히 음성번역기술 자체가 적어도 두 가지 이상의 언어에 대한 기술개발을 요구하는 것을 고려, 86년부터 전세계적으로 기술선도 대학 및 연구소와 국제공동연구컨소시엄인 C-STAR(Consortium for Speech Translation Advanced Research)를 결성해 협력하고 있으며 지난달 향후 5년내 상용화를 목표로 3번째 프로젝트를 시작했다. 여기에는 한국의 ETRI, 미국의 카네기멜론대, 이탈리아의 IRST, 프랑스의 CLIPS연구그룹, 독일의 칼스루에대 외에 중국과학원자동화연구소가 신규로 참여했다.
<교토=이재구기자 jklee@etnews.co.kr 신재명기자 jmshin@etnews.co.kr 박준 ETRI 연구원 junpark@etri.re.kr>