음성인식기술, 디지털언어 사용 PC와 "의사소통" 실현

 음성인식기술은 사람과 기계간의 대화를 실현한다. 궁극적으로는 키보드나 마우스를 사용하지 않고 컴퓨터를 제어할 수 있는 기능을 말하는데, 때로는 컴퓨터가 음성합성기술을 이용해 문서(텍스트)를 알아서 읽어주기도 한다.

 이같은 음성인식기술은 공상과학(SF)영화 「데몰리션맨」에서 전형적인 모습을 찾아볼 수 있다.

 주인공인 실베스타 스탤론이 미래사회에 다시 태어나 크게 발전한 가정의 모습에 놀라는 모습을 흥미롭게 표현한 장면에서다.

 그는 집안에 들어가지만 전등 스위치를 찾지 못해 넘어지고, TV마저도 전원 스위치를 발견하지 못한다. 그 모든 것이 「말」로 작동했던 것이다.

 가깝게는 우리나라에서 판매됐던 휴대폰 광고에서도 음성인식기술의 응용사례를 발견할 수 있다. 『우리∼집』 『본부』라는 목소리를 자동 다이얼링으로 연결했던 제품들이 그것이다.

 음성인식은 인간의 목소리를 0과 1 이진법의 디지털 언어로 바꾸는 것에서 출발한다. 마이크에 소리를 들려주면 사운드카드가 음성을 조각내 디지털 신호로 분리한 후 이것을 메모리나 하드디스크에 저장하는 것이다.

 이 때 저장하려는 음소의 길이가 서로 다른 문제를 해결하기 위해 음성을 약 10∼20㎱(1㎱는 10억분의 1초)씩의 프레임으로 분리한다.

 이 음성조각들의 주파수 스펙트럼을 구해 각각의 음파를 분리하면 음성인식의 기본이 완결된다.

 하지만 문제는 사람의 언어사용이 각양각색이기 때문에 개인에 따른 음성파장에 편차가 발생한다는 점이다.

 작게 웅얼대는 소리를 알아듣기 힘든 것과 마찬가지인 셈이다. 이같은 문제점을 해결하기 위해 음성인식 단위를 음소에서 단어로 확장하는 것이 전반적인 추세지만, 이것 역시 다양한 문장형태를 인식해야 하는 기술적 어려움과 의성어나 주변 소음에 대한 필터링 기술 등에서 극복해야 할 과제가 남아 있다.

 최근에는 음성인식기술이 장족의 발전을 거듭해 영화속에서나 등장하던 것들을 현재로 옮겨놓을 태세다. 컴퓨터의 언어능력도 더불어 좋아져 귀에 거슬렸던 쇳소리가 사라지고 자연스러운 음성을 들려주고 있다.

 국내에서는 거원시스템이 다양한 음성인식 솔루션을 상품화한 상태고, 최근 미국의 컨버사가 삼성전자의 손목시계형 「워치폰」에 음성인식기술을 제공하는 등 상용화에 속도가 붙고 있다.

이은용기자 eylee@etnews.co.kr