‘말을 알아듣는 컴퓨터’ 시대가 성큼 다가서고 있다.
C넷에 따르면 마이크로소프트(MS)·IBM 등 대형 컴퓨터 업체들이 컴퓨터에 음성인식 기술을 접목, ‘말하고 듣는 컴퓨터’ 시대를 열기 위해 구슬땀을 흘리고 있다.
지금까지는 기술적 결함과 높은 비용, 부족한 애플리케이션 등 때문에 컴퓨터에 음성인식 기술을 접목하는 것이 쉽지 않았는데 이제 이들 컴퓨터 업체들은 음성명령으로 소비자들이 데이터베이스에 접근하게 하는 내용의 신기술 개발에 급피치를 올리고 있다.
MS는 9일(현지시각) 음성명령으로 서버를 작동시킬 수 있는 ‘스피치 서버’(Speech Server)의 첫 공개 베타판을 발표해 시선을 모았다. 정식명칭이 ‘닷넷 스피치 플랫폼’인 이 제품은 상용화될 경우 자동 전화시스템 구축 비용을 크게 낮춰줄 것으로 기대된다. 스피치 서버와 함께 MS는 개발자들이 음성인식 애플리케이션을 개발하도록 도와주는 제품인 ‘스피치 애플리케이션’ 개발킷의 세 번째 베타판도 선보였다.
IBM도 연구소(IBM리서치)와 IT서비스 부문에서 음성인식 기술 개발을 적극 후원하는 등 높은 관심을 보이고 있다. IBM리서치의 경우 올 연말까지 서로 다른 언어를 번역해주는 시스템을 개발해 선보일 예정이다. 데이비드 나하무 IBM리서치 임원은 “지난 3∼4년간 컴퓨터가 문장구성을 이해하는 데 있어 큰 진전을 이뤄 이제 시장이 이같은 기술진보에 적극적으로 답하고 있다”고 설명했다.
IBM은 2010년까지 ‘슈퍼 휴먼 음성인식’이라는 프로젝트를 통해 사람보다 더 정확히 음성을 문자로 전환해주는 상용시스템을 개발키로 했다. 지금은 기계의 에러율이 사람보다 5∼10배 더 높은 것으로 추정된다.
‘말을 알아듣는 컴퓨터’의 꿈은 디지털 시대가 열리면서부터 예견돼 왔지만 인간의 언어가 상황·환경에 따라 워낙 복잡해져 기계로 제대로 인식하기 어려웠던 게 사실이다.
일례로 ‘예스’ 라는 하나의 말만 해도 영어로 ‘yes’ ‘yep’ ‘ya’ ‘uh-huh’ 등 다양한 표현이 가능하다. 또 주위소음이 있거나 빨리 말하는 경우 등이 기계의 인간어 이해를 어렵게 한 요소였다.
초창기 과학자들은 이같은 사실을 간과해 인간이 말하는 구문을 컴퓨터가 이해하는 데 힘을 기울였지만 이제는 개발 기술과 마케팅 방향을 전환하고 있다. 즉 대화를 주고받는 컴퓨터를 개발하기보다는 상황, 인간의 습관 등을 고려해 컴퓨터가 사람의 음성을 이해하도록 하는 데 열중하고 있다.
이같은 방법은 MS의 인공지능 개발작업의 근간을 이루고 있다. MS가 개발한 ‘요다(Yoda)’는 사람의 습관을 분석, 말을 문자로 변환해주는 SW 엔진이다. 기업들은 이제 컴퓨터 이외에 휴대폰 등 다른 하드웨어에도 음성인식 기술을 접목하기 위해 활발히 연구 중이다.
<방은주기자 ejbang@etnews.co.kr>