바야흐로 지능 에이전트 기반의 개인 비서 시대로 접어들었다. 바로 아이폰4S에 탑재한 `시리(SiRi)`가 그것으로 지금은 버전1.1 정도라고 말할 수 있다. 2009년에 애플이 음성인식(VR) 기술을 미국 특허청에 등록하고 2010년에 시리를 2억달러에 인수한 후 2011년 아이폰4S에 탑재해 출시했다. 인간은 오감으로 의사 결정을 한다. 대략 정확한 통계는 없지만 시각이 87%, 청각이 7%, 촉각이 3%를 담당한다. 그만큼 청각이 멀티 터치보다 중요하다는 뜻이다.
![[미래칼럼] 지능 에이전트 `시리(SiRi)`의 미래](https://img.etnews.com/photonews/1202/242578_20120208163720_299_0001.jpg)
그래서 많은 기업이 이에 도전해왔다. 그런데 그간 음성인식 기술은 신뢰도 한계인 95%를 넘지 못해 시장에서 외면받았다. 이를 넘어선 것이 구글의 음석인식(VA)기술이다. 하지만 구글 음성인식 기술은 성별, 연령별, 사투리 등으로 구분한 2500억 개 영어 단어를 음성데이터로 저장해 접목한다는 한계가 있었다. 반면 애플 시리는 지능 에이전트(IA) 기반의 자연언어 학습(NLL)을 할 수 있는 능력이 있다. 이를 바탕으로 미래의 시리를 예측해보자.
첫째, 먼저 시리의 핵심 기술은 클라우드 내에 위치한 사용자 개인 편차(사투리, 성별, 연령별, 건강, 심리, 언어 능력 등)에 따른 음성 모델을 저장하는 데이터베이스, 지능 에이전트 베이스의 자연언어 학습 능력(NLU), 질문에 응답하는 울프램 알파(Wolfram Alpha)와 위치 추적 기반의 `옐프(Yelp)`다. 시리는 단지 에이전트에 불과해 사용자 음성 입력을 클라우드에 알리면 클라우드는 이들 도움으로 데이터베이스 분석을 거쳐 최적의 응답을 찾아 시리에게 전달한다. 그다음으로 시리가 사용자와 음성으로 인터페이스하는 것이다. 따라서 시리의 기본은 클라우드다. 클라우드를 구축하지 않고는 불가능한 기술이라는 점을 알아야 한다.
둘째, 시리를 이용한 음성검색 서비스로 발전할 것이다. 지식의 시대로 진입하고 있다. 지식이란 데이터베이스를 활용한 애플리케이션을 말한다. 지금의 인터넷 정보 검색에서 2~3년 안에 앱의 지식 검색으로 바뀌는 추세다. 그래서 다양한 앱을 개발하고 확보해야 한다. 참고로 2011년 12월 말 현재 애플의 앱은 60만개이고 구글의 앱은 35만개다.
셋째로 시리를 이용한 3차원 매핑 검색으로 발전한다. 현재 구글 맵은 주로 2차원이다. 1~2년 내에 3차원 영상과 3차원 매핑이 동시에 등장한다. 그래서 애플은 3차원 영상과 매핑을 위해 C3테크놀로지를 지난해 인수했다.
넷째, 시리는 엔터프라이즈에 응용된다. 의사들이 음성으로 수술을 집도하고 법률을 음성으로 불러오며 물류를 음성으로 다루고 공학과 언어학에서는 음성으로 학습을 하며 군사들은 음성으로 명령하고 미션을 수행하는 시대가 3~5년 안에 등장한다.
다섯째, 3~5년 안에 시리는 기기 조작과 정보 입력과 출력에 활용된다. 따라서 기존의 멀티터치 시대에서 음성과 융합하는 UI(UX)를 조기에 개발해야 한다. 여섯째로 음성 상거래(VC)와 음성 광고 시장이 3~5년 안에 등장할 것으로 보인다. 지금의 시리는 5~10개 주변 식당을 추천해준다. 그러나 95% 신뢰도의 식당 한 곳을 추천해주고 사용자가 신뢰하면 이는 충분히 가능한 시나리오다.
일곱째로 3~5년 안에 시리는 다양한 맞춤식 개인 아바타로 전환돼 이메일을 보내면 상대방에 가서 수취 확인증을 받아오고 선물을 보내면 배달 증명을 받아오는 시대로 진입한다. 이는 앞으로 5년 안에 모든 UI(UX)가 음성으로 인터페이스가 가능하다는 이야기다. 여기에 막대한 비즈니스가 있다. 한국의 대·중·소 벤처기업이 힘을 합쳐 지능 에이전트 기반의 음성인식 기술에 도전해야 하는 이유가 여기에 있다. 한 가지 간과해서는 말아야 할 것이 음성인식 비즈니스 핵심은 클라우드라는 점이다.
차원용 아스팩미래기술경영연구소장