[해외기술동향] 日, 음성인식.합성 기술 개발 급진전

하이테크 분야에서 「소리」가 그 응용 범위를 급속히 늘려가고 있다.

최근 일본에서는 음성인식과 음성합성 기술이 복지 분야는 물론 전자제품을 간단히 조작하는 인터페이스로 활용되기 시작했다.

음성합성이란 컴퓨터가 음성을 합성해 단어로 발음되도록 하는 기술이며, 음성인식이란 그 반대로 사람의 음성을 정확하게 인식해 내는 기술을 일컫는 용어.

카내비게이션 시스템 분야에서는 음성인식에 의한 조작이 이미 보급 단계에 들어섰고 가정용 TV와 에어컨을 소리로 제어하는 장치도 보편화를 눈앞에 두고 있다. 또 음성인식장치를 탑재해 전화번호 버튼을 없앤 손목시계형 PHS(간이휴대전화)도 선보였으며 음성을 통한 실시간 통역시스템도 멀지않은 장래에 실용화될 것으로 전망되고 있다.

미쓰비시전기는 최근 음성합성과 음성인식 그리고 점자 디스플레이를 결합한 시각장애인용 전자신문 시스템을 개발했다. 이 시스템은 PC 수신을 전제로 발신되고 있는 TV아사히 계열 지상파데이터방송인 「ADAMS-P」와의 연계 활용키 위해 개발된 것으로 이 시스템을 사용하면 ADAMS-P가 제공하는 아사히신문과 닛칸스포츠 등의 기사를 합성된 음성으로 들을 수 있다.

미쓰비시의 이 시스템에는 음성합성과 음성인식에 대응하는 전용 브라우저가 탑재돼 있다. 이 브라우저 상에 기사 목차 페이지를 띄우면 기사 제목 앞에 위에서부터 순서대로 번호가 매겨진다. PC는 곧바로 그 번호와 기사 제목을 읽어주고 사용자는 기사 가운데 원하는 번호를 목소리로 지정함으로써 내용을 음성합성을 통해 듣는 것이다. 물론 숫자 뿐 아니라 단어도 인식하기 때문에 「스포츠」 「경제」 등 원하는 쟝르를 목소리를 사용해 선택할 수도 있다.

음성합성, 음성인식은 시각장애인 뿐 아니라 행동에 제약이 많은 노인과 어린이를 위한 가정용 전자, 전기제품, 휴대기기의 새로운 인터페이스로 그 응용분야를 넓히고 있다.

주택건설업체인 미사와홈은 최근 TV, 에어컨, 각종 조명 등을 음성으로 조정하는 「음성인식 제어장치」를 개발, 올해 안에 자사가 건설하는 주택의 옵션으로 채용할 방침이다. 미사와홈은 이 음성인식 제어장치를 건축 단계에서 미리 벽에 내장할 계획인데 입주자들은 접속된 마이크를 향해 「6번 채널을 켜」라고 말하면 리모컨 신호가 전송돼 명령을 실행하게 된다.

음성인식은 휴대전화단말기의 소형화에도 크게 기여하고 있다. NTT는 음성인식 기술을 활용해 무게가 37에 불과한 손목시계형 PHS를 시험 제작했다. 이 제품은 이미 가정용 무선전화기와 휴대전화기 등에서 실용화된 음성인식장치를 사용하고 있는데 다른 점은 초소형화를 위해 전화번호 입력에 필요한 보턴을 모두 없앴다는 점이다.

이미 음성인식장치는 급속한 성장을 구가하고 있는 카내비게이션 시스템이라는 거대 시장을 확보하고 있다. 최근 카내비게이션 업체들은 보다 진보된 최첨단 음성인식기술을 경쟁업체보다 조금이라도 빨라 도입하기 위해 혈안이다.

카내비게이션 시스템은 그 특성상 대부분의 조작이 운전중에 이루어진다. 따라서 운전자가 운전 중에 활용할 수 있는 유일한 조작 수단이 음성이라는 점을 감안하면 카내비게이션 시스템에서의 음성인식기술 도입은 앞으로 한층 가속도가 붙을 것이 자명하다.

이처럼 가전이나 카내비게이션 조작을 위한 음성 인터페이스는 이미 실용화 단계에 들어서 있다. 이보다 한층 진보된 형태의 음성인식, 음성합성 응용 장치도 그 모습을 나타내기 시작했는데 최신 첨단 연구 성과들이 망라된 TV 자막 작성, 자동 음성번역 장치 등이 그것이다.

NHK는 최첨단 음성인식기술을 사용해 실시간으로 TV에 자막을 작성하는 시스템을 2천2년 실용화를 목표로 개발 중에 있다. NHK 방송기술연구소가 주축이 돼 개발하고 있는 이 시스템은 청각장애인 복지차원에서 진행되고 있는 것으로 현재 뉴스 프로그램을 중심으로 실험을 거듭하고 있다.

방송되고 있는 대사를 한자가 섞여 있는 일본어 자막으로 처리하는 작업은 상당한 집중력을 요하기 때문에 사람이 직접할 경우 적어도 4명 이상의 오퍼레이퍼가 교대로 작업해야 한다. 뿐만 아니라 적확한 한자를 정확하게 입력하기 위해서는 다소 전문적인 지식도 필요하다. 특히 늦어도 1-2초 이내에는 작업을 완료해야 하기 때문에 사람이 직접할 경우 엄청난 순발력을 요한다.

NHK가 개발 중인 자막 작성 시스템은 분야에 따라 가장 출현 빈도가 높은 단어를 1순위로 저장해 놓음과 동시에 방송 대사를 우선 들리는 대로 여러 후보 한자를 설정해 두었다가 앞 뒤 문장에 맞춰 수정해 나가기 때문에 작성 속도와 정확도를 높게 유지할 수 있다.

NHK측은 방송의 경우 훈련된 아나운서의 발음을 입력하는 것이기 때문에 인식율을 높이는 작업도 그다지 어렵지 않을 것으로 보고 있다.

또 ATR음성번역통신연구소는 「자신이 말한 문장을 곧바로 외국어로 번역해주는 꿈같은 시스템」을 실용화하기 위해 박차를 가하고 있다. 이 연구소가 시제품으로 개발한 것은 자유롭게 말한 일본어 문장을 영어로 즉석에서 번역하는 음성 자동번역시스템 「ATRMATRIX」. 이같은 종류의 시스템이 선보인 것이 이번이 처음은 아니지만 지금까지는 그 속도와 정확성이 매우 떨어져 상품화 자체가 불가능했었다.

사실 말을 이용한 입력은 애매한 발음과 부정확한 어순 때문에 키보드나 활자를 통한 입력에 비해 정확도가 떨어질 수밖에 없다. 그러나 ATR연구소는 고성능 음성인식기술과 방대한 양의 문장 분석을 통해 작성한 통계 데이터를 활용해 지금까지 개발된 비슷한 종류의 시스템과 차원이 다른 시제품 개발에 성공했다.

시제품 「ATRMATRIX」는 활용 어휘를 여행 관련 용어로 한정하고 있는데 그 인식율이 실용 가능 수준을 넘어서고 있어 휴대전화 등 통신을 활용하는 서비스라면 현재 단계에서도 실용화가 가능한 것으로 알려지고 있다.

ATR연구소측은 그러나 『다양한 문장에 대응하기 위해서는 방대한 양의 데이터베이스를 축적할 수 있는 고성능 워크스테이션이 필요하기 때문에 보급의 관건인 휴대형 제품의 개발은 당분간 어려울 것』이라고 밝히고 있다.

<심규호 기자>