스마트폰이 마침내 말귀를 알아듣기 시작했다. 구글코리아는 최근 자판입력 대신 음성인식만으로 스마트폰 검색을 지원하는 한국어 모바일 음성검색 서비스를 선보였다. 음성언어를 빠르고 정확히 이해하는 모바일기기의 등장으로 인간과 기계의 언어통합은 가까운 미래로 다가왔고 일상생활에도 흥미로운 변화들이 일어날 전망이다.
사람의 말을 이해하는 기계장치를 만드는 것은 과학자들의 오랜 꿈이었다. 음성인식 기술에 대한 연구는 지난 1950년대부터 본격적으로 진행돼 왔다.
미국의 벨연구소는 1952년 기존 음향학과 음성학에 대한 연구성과를 집대성해서 세계 최초의 숫자인식기를 개발했다. 이 장비는 원·투·쓰리와 같은 숫자음이 나타내는 고유한 스펙트럼 파형을 분석해서 숫자인식이 가능했지만 특정한 사람의 발음만 구분하는 한계가 있었다.
1956년 RCA연구소에서 모음 영역의 스펙트럼 파형을 측정해 10개의 단음절 단어를 구별하는 음성인식 기술을 만들었다.
일본도 1960년대부터 음성인식 분야에 일찍 뛰어들었다. 1963년에 NEC연구소는 매우 정확도가 높은 숫자인식 장치를 개발하면서 주목할 성과를 쏟아냈다.
1970년대에는 누가 발음해도 동일하게 알아듣는 화자 독립의 음성인식시스템을 만드는 연구가 화두로 떠올랐다. 이러한 목표달성을 위해 방대한 사용자층이 사용하는 음성표현을 유형별로 모으는 군집화 알고리듬과 음성패턴 인식기술이 등장했다.
1980년대에 들어와서는 미 국방부 주도로 개별단어가 아니라 긴 문장을 인식하는 연구가 가속화됐다. 전투상황에서 자동화된 음성인식 장치는 군인이 없어도 지휘시스템과 무기체제를 일정부분 가동하는 역할을 해낼 수 있기 때문이다. 미국방고등연구계획국(DARPA)은 거대한 컴퓨터 자원을 투입해 무려 1000단어의 연속음성인식과 체계적인 음성인식 데이터베이스를 구축하는데 성공했다.
이러한 연구성과를 바탕으로 1990년대가 시작되자 유선전화사업자들은 교환서비스를 자동화하는데 초보적 음성인식 기술을 상용화하기 시작했다. 사람들은 ‘내용이 맞으면 예스(Yes), 아니면 노(No)라고 답하세요’라는 전화기 속의 낯선 음성지시에 따라 기계와의 대화방식에 점차 익숙해졌다.
인터넷 열풍을 타고 음성인식 기술의 상업적 가능성에 눈독을 들인 벤처기업이 속속 등장했다. 국민배우 안성기가 초창기 삼성 휴대폰을 들고 ‘본부 나와라~!’를 외쳤던 것이 이즈음이다. 음성인식 기술은 2000년대에 들어와 휴대폰·내비게이션·홈오토메이션 기기와의 접목을 시도했지만 큰 상업적 성공을 거두지 못했다. 새로운 음성학·통계학 이론을 적용해 정확도를 크게 끌어올린 음성인식SW와 세계 각국의 언어를 지원하는 방대한 음성 데이터베이스도 이미 개발됐다.
하지만 모바일기기의 제한된 CPU 성능은 수준 높은 음성인식SW를 구동하는데 큰 걸림돌로 작용했다. 사용자들은 비싸게 구입한 음성인식 장치의 반응속도와 품질이 기대에 못미치고 차 안이나 일상 소음 속에서 정확도가 크게 떨어진다는 사실에 실망을 표했다.
◇클라우드 컴퓨팅이 음성인식시장에 물고 터=소비자가 만족할 수준으로 음성 인식률을 끌어올리려면 개인용 IT기기의 한계를 훨씬 넘어선 대용량의 전산자원이 필요하다. 한동안 답보상태에 머물던 음성인식 기술은 클라우드 컴퓨팅과 접목하면서 새로운 돌파구를 찾았다.
구글은 여러 장소에 분산된 서버를 묶어서 한 대의 컴퓨터처럼 사용하는 클라우드 컴퓨팅을 활용해 음성인식 서비스의 속도와 정확률을 눈에 띄게 높이는 연구를 진행했다. 세계 각국에 설치된 구글 IDC의 전산자원을 극히 일부만 활용해도 사용자가 편하게 쓸 수 있는 음성인식 서비스를 제공할 수 있다. 구글은 이미 2008년부터 영어 음성검색을 시작했고 지난해에는 중국어·일본어·프랑스어·이탈리아어·독일어·스페인어 음성검색도 잇달아 지원했다.
지난달 구글코리아는 한국어 모바일 음성검색 서비스를 선보였다. 사용자가 스마트폰의 음성검색 메뉴를 켜고 “월드컵 결승전 일정”이라고 말하면 음성파형을 나타내는 디지털 파일로 바뀌어 즉시 가까운 구글IDC로 전송된다. IDC에 설치된 서버들은 사용자의 음성을 분석해서 월드컵 결승전 일정에 관련한 검색정보를 사용자 스마트폰으로 날려 보낸다.
구글 측은 한국어 음성검색 서비스가 거의 무한한 전산자원을 투입하는 클라우드 컴퓨팅에 기반하기 때문에 한층 빨라진 네트워크 데이터 처리와 정교한 음성인식 검색을 구현했다는 설명이다.
예를 들어 ‘50유로는 몇 원인갗 등 숫자와 영어·한글이 섞여 있는 질문을 받아도 바로 데이터 검색이 가능하다.
구글은 한국어 음성검색 개발을 위해서 많은 남녀표본을 모아서 식당·길거리·차안 등 각기 다른 상황에서 주요 검색어로 수십만 개의 단어DB를 구축했다. 사용자가 서비스를 사용할수록 발음과 억양, 검색어 조합에 관한 정보가 축적돼 더욱 정확한 검색결과를 제공하기 때문에 머지 않아 음성인식의 정확도는 평범한 인간의 수준에 근접할 가능성이 높다.
사용자들은 대체로 구글의 음성검색이 빠른 반응속도와 번잡한 도심환경에서도 90% 내외의 정확도를 구현해 이제 쓸만한 수준이란 평가를 내리고 있다. 다음도 유사한 음성검색 서비스를 시작했는데 투입 가능한 전산자원의 한계로 체감속도가 다소 늦지만 검색정보의 품질은 괜찮다는 평가를 받고 있다.
이제 친구에게 묻듯이 말로 편하게 모바일 검색이 가능해짐에 따라 자동차를 운전하거나 걸어다닐 때 검색을 위해 자판을 손가락으로 누르는 일은 거의 사라질 전망이다.
모바일 음성검색이 안정궤도에 들어섬에 따라 다음 단계로 인터넷TV·홈오토메이션 등에서 음성인식기술이 새롭게 꽃을 피울 것으로 기대된다. 아파트 공용 출입구에서 마이크에 거주자 이름을 이야기하면 정확한 동호수로 연결되거나 ‘9시뉴스’ ‘재미있는 만화영화’ ‘이번 주 무한도전’이라고 주문을 외치면 저절로 콘텐츠를 찾아주는 마법의 수정구슬(인터넷TV)이 등장할 날도 멀지 않았다.
◇음성인식의 미래=음성인식 기술과 스마트폰의 결합은 단순히 편리한 모바일 사용자 환경이 생겨나는 이상의 의미가 있다. 사람의 말귀를 알아듣는 스마트폰은 무선 네트워크를 통해서 일상 속의 온갖 물건들에게 ‘말하는 마법’을 걸어놓을 수 있다.
슈퍼마켓을 돌던 주부가 문득 집 냉장고에 있는 우유의 유통기한을 알고 싶다고 가정해보자. 휴대폰을 켜고 ‘우리 집 우유의 유통기한?’이라고 질문하면 몇 초 뒤에 ‘A사 우유 750ml, 유통기한 이틀 남았습니다’라는 답신이 날아온다.
가정용 서비스 로봇도 음성인식과 스마트폰의 조합으로 큰 혜택을 볼 시장이다. 머지않아 로봇은 주인님의 말씀을 재깍재깍 알아듣고 가사노동과 비서일을 해낼 전망이다. 전화번호부를 대체하는 114 번호안내 서비스도 음성인식 기술의 확산에 따라 시장 규모가 점차 감소할 것이다.
전문가들은 음성인식기술이 클라우드 컴퓨팅의 물량지원과 수많은 사용자의 참여 덕분에 성능이 한층 향상되면서 실시간 통역서비스로 진화할 가능성을 예견하고 있다. 스마트폰의 실시간 통역메뉴를 누르는 순간 유사 이래 국가와 민족끼리 다른 언어를 사용하면서 겪어온 수많은 오해와 불편이 너무도 간단하게 해소되는 셈이다. 이어령 전 문화부 장관이 지난 2002년에 월드컵 관광객을 돕기 위해 만든 국제 통역서비스단 BBB(Before Babel Brigade)도 역할이 감소할 것이다.
음성인식 기술을 이용한 실시간 통역 서비스의 확산은 언어 장벽 앞에서 쩔쩔매던 외국인 노동자의 이동과 권익향상을 부추긴다. 이는 국갇언어의 장벽을 넘어 노동임금의 전 지구적 평준화를 부추기는 촉매가 될 전망이다.
오는 2020년대에는 외국어 실력이 입사조건에서 차지하는 비중이 현저하게 낮아지고 끝없이 성장하던 영어교육 시장도 마침내 감소할 가능성이 있다. 우리 후손들은 외국어 시험을 준비하느라 몇 년씩 매달렸던 조상들의 수고로움을 미개했던 시절의 웃지 못할 해프닝쯤으로 여길지도 모른다.
배일한기자 bailh@etnews.co.kr