음성인식 춘추전국시대 ‘이런 곳에도…’

발행일 : 2012-08-18 08:00

누구나 말로 간편하게 부릴 수 있다는 음성인식 제품이 대세다. 오는 9월 선 보일 것으로 알려진 애플(apple.com) iOS 6는 한국어 인식 기능을 갖췄고 아이폰4S는 물론 뉴아이패드에도 음성인식 서비스를 탑재할 예정이다. 구글(www.google.co.kr)은 지난 2010년부터 안드로이드 스마트폰에서 음성검색 기능을 제공해 왔다. 국내외 스마트폰 제조사 중 음성인식 기술을 도입하지 않은 곳은 없다. 가히 ‘음성인식 춘추전국시대’라 할 만하다.

◇ ‘스핑크스’ 등장하며 비약적 발전해 = 사실 음성인식 기술은 1952년부터 연구되기 시작했을 정도로 역사가 길지만 빈약한 처리속도와 저장공간때문에 고작 토막 단어를 알아듣는데 그쳤다. 음성인식 기술이 현재와 같은 모습을 갖추게 된 것은 1980년대 들어 미국 카네기멜론대학(www.cmu.edu)이 개발한 음성인식 소프트웨어 ‘스핑크스’가 나타나면서부터다.

스핑크스는 누구나 말을 해도 이 목소리를 알아듣고 처리할 수 있는 ‘불특정화자’ 방식으로 음성을 처리했지만 끊김없이 자연스런 언어를 알아듣는 능력은 없었다. 1990년대 들어 PC 성능이 비약적으로 높아지며 음성인식에도 전기가 찾아왔다. 수퍼컴퓨터가 아니면 불가능했던 음성인식 기술을 가정에서도 쓸 수 있게 된 것이다. 1990년 처음 출시된 ‘드래곤딕테이트’가 그 시초다. 9,000달러(한화 약 1,020만원)이나 할 정도로 비쌌지만 성능은 보잘 것 없었다.

◇ 클라우드로 날개 단 음성인식 = 요즘 스마트폰·태블릿 음성인식 기능은 놀랍기 그지없다. 말만 하면 잠시 후 원하는 정보를 찾아준다. 하지만 실상은 다르다. 스마트폰은 촘촘히 얽힌 네트워크 너머로 음성만 실어 나르고 결과만 넘겨받는다. 음성인식은 클라우드에 있는 서버 컴퓨터가 처리한다.

입력받은 음성과 방대한 단어 사전을 순식간에 비교한 뒤 가장 가능성이 높은 단어나 문장을 다시 되돌려주는 것이다. 실제로 구글이 음성 검색 시스템에 저장한 영어 단어는 2,300억 개, 한국어 단어는 수백만 개에 이른다. 게다가 음성 검색 서비스를 통한 검색이 늘어날수록 각 단어가 차곡차곡 쌓이는 방식이기 때문에 검색결과는 점점 더 나아지고 정밀해진다.

◇ 외국어에서 빛을 발하는 음성인식 = 말도 글도 통하지 않는 이국땅에서 곤란한 일이 생기면 어떻게 해야 할까. 물론 회화사전을 뒤적일 수도 있겠지만 음성인식 기능이 내장된 번역 앱을 이용하면 보다 간편하게 의사소통을 할 수 있다. 수십 개 나라 말을 동시에 처리할 수 있는 비서가 생기는 셈이다.

음성인식 기술을 거꾸로 외국어 학습에 적용한 예도 있다. TKE샵(www.tkeshop.co.kr)에서 판매하는 ‘토킹로보’가 그 예다. 토킹로보는 PC에 설치하는 소프트웨어와 로봇 모양 음성입력장치로 구성되어 있다. PC에 저장된 외국어 지식 데이터베이스를 이용해 자연스러운 대화가 가능하고 데이터베이스에 없는 내용은 인터넷 검색을 통해 찾은 다음 대화에 반영하는 기능을 갖췄다. 유치원생부터 성인까지 쓸 수 있는 다양한 데이터베이스를 갖췄다는 것이 제조사 설명이다.

◇ 음성인식 쓰임새 날로 늘어날 것 = 물론 음성인식 기술이 비약적으로 발전하긴 했지만 아직도 극복해야 할 과제는 많다. 시끄러운 곳에서는 말소리를 제대로 알아듣지 못하는 것이 대표적인 예다. 특히 한국어는 자음·모음 조합이 자유롭지만 이 때문에 말소리의 가장 기초적인 단위인 음절이 1만개 이상으로 늘어난다. 사람뿐만 아니라 기계도 알아듣기 힘든 언어인 셈이다.

하지만 컴퓨터 프로세서와 모바일 AP(애플리케이션 프로세서) 성능이 해가 다르게 높아지고 있어 이런 문제점은 충분히 해결될 수 있을 전망이다. 시장조사기관 가트너(www.gartner.com) 역시 올 초 내놓은 보고서에서 “키보드·마우스 위주 인터페이스가 터치 뿐만 아니라 음성·동작인식 등으로 보다 다양해질 것”이라고 전망한 바 있다.