4차산업혁명 기술을 가장 체감할 수 있는 분야가 인공지능(AI)이다. AI 대중화에는 음성인식 기술이 결정적 역할을 했다. 데이브 이스비츠키 아마존 에코와 알렉사 부문 에반젤리스트는 “컴퓨팅 분야 차세대 혁신 기술은 음성 인터페이스 기술로 기업 시장과 다양한 환경에 활용될 수 있다”고 말했다.
가상 비서와 모바일 쇼핑, 고객 서비스 등 다양한 분야에 음성인식 AI가 활용되면서 성장 전망도 밝다. 스태티스타에 따르면 2017년 세계 음성인식 시장 규모는 약 11억1000만달러였으나 2024년 약 7000억달러 규모에 이를 것이라고 내다봤다. 바야흐로 음성인식 AI 기술 황금기가 열리는 것이다.
이향선 전자신문인터넷기자 hyangseon.lee@etnews.com
여러 기업이 내놓은 음성인식 AI 기술은 인식률 및 맥락 이해 향상과 함께 대화 구현 단계에 들어섰다. 음성인식 기술은 개별 숫자, 음절 인식에서 고립단어 인식, 연결단어 인식, 대어휘 연속 음성인식 단계로 발전하면서 빠르게 진화하고 있다. 대어휘 연속 음성인식에서 인체 신경세포 신호 전달 방식과 유사한 딥러닝 기술이 음성인식 전반에 걸쳐 적용되며 인식률이 급속히 개선됐다. 일반 상황이나 발화에 대해 인식 정확도는 90% 이상 높은 수준으로 올라 왔다.
궁극적인 음성인식 AI 목표는 사람과 자연스런 소통이다. 사람이 이해하는 방식으로 대화를 이해하고, 피드백은 추가 지식을 포함하는 등 기계와 사람이 소통하는 가장 편리한 인터페이스로 발전할 전망이다. 다양한 서비스와 접목, 각 고객 맞춤형 개인화 서비스가 가능해 다양한 산업에 활용될 것으로 보인다. 멀티태스킹 기능도 가능해 음성인식을 수행하는 동시에 음성신호를 기반으로 화자식별, 화자분리, 성별, 감성, 언어식별 등을 동시에 처리한다. 세밀한 개인화 및 다국어 음성인식, 보안 이슈 등 해결도 기대되고 있다.
음성인식 AI 도전 과제
음성인식 AI가 발전을 거듭하고 있으나 문제점도 적지 않다. 우선 수많은 양질의 음성, 문자 데이터 확보가 중요하다. 음성인식 AI 기술은 딥 러닝 기반 빅데이터를 처리하므로 다양한 화자와 환경에서 수집된 데이터가 필요하다. 여러 환경에서 잡음, 여러 사람의 대화, 화자의 성별, 나이, 지역, 사투리, 교육수준 등이 반영된 다양하고 방대한 음성 데이터베이스 구축이 절실하다. 개인정보보호 관련 이슈 등으로 데이터 확보가 쉽지 않고, 확보된 데이터 유지도 어려워져 적절한 해법도 찾아야 한다.
사용자를 사로잡는 음성인식 AI 서비스 열전
-다양한 콘텐츠와 연동되는 '네이버 클로바'
네이버는 AI 플랫폼 '클로바(Clova)'에 스마트 스피커와 클로바 앱에 음성인식 및 음성합성 기술을 적용했다. 스피커와 클로바 앱에서 음성으로 명령하면 IoT(스마트홈), 음성 기반 쇼핑 서비스, 오디오 콘텐츠, 배달의 민족을 통한 음성 주문 등 다양한 서비스가 가능하다. 네이버 자동통역 앱 파파고, LG전자 씽큐허브, 네이버랩스 아키 등에도 네이버 음성인식 기술이 적용됐다.
네이버 음성인식 AI 스피커는 검색을 중심으로 지도, 뮤직, 쥬니버, 오디오클립 등 네이버 서비스가 연동돼 다양한 콘텐츠를 이용할 수 있다. 단어만으로도 대화가 가능하고 동명이인도 인식한다. 음성 합성기술 nVoice의 HDTS 기술이 적용돼 다양한 목소리 서비스도 가능하다.
-개인 맞춤형 서비스 중심 '삼성전자 빅스비'
삼성전자 음성인식 AI 서비스 빅스비는 사용자와 상호작용으로 사용자 습관과 선호도에 기반한 개인 맞춤형 서비스를 제공한다. 문맥 이해, 자연어 이해, 대화관리 기술 적용으로 사용자가 말하는 의미를 정확하게 이해한 후 적합한 반응을 보인다. 인공지능 비서로서 사용자가 원하는 역할도 수행해낸다. 빅스비는 200여개 국가에서 서비스되고 있다. 한국어, 미국 영어, 표준 중국어 지원 외에도 영국 영어, 프랑스어, 독일어, 이탈리아어, 스페인어 등 유럽 주요 5개국 언어가 베타 서비스 중이다. 삼성전자는 모바일뿐만 아니라 다양한 가전제품에도 빅스비를 적용해 사용자에 최적화된 개인화 서비스를 제공할 계획이다.
-기기 제어 특화 교감형 서비스 중심 'LG전자 씽큐'
LG전자 음성인식 AI 기술은 가전제품, 휴대폰 등 기기 제어 분야에 특화됐다. LG 휘센 씽큐 에어컨은 주변 환경과 고객을 스스로 학습해 최적 방식으로 동작한다. 상황에 따라 변경되는 운전모드를 음성으로 알려주고, 필요한 정보를 말해주는 '교감형 인공지능'이 특징. 고객이 주로 머무는 공간은 물론 실내·외 온도, 습도, 공기질 등 생활환경과 고객 사용패턴까지 학습해 적절한 코스로 작동할 뿐만 아니라 사용자에게 음성으로 알려준다. 실내·외 공기질, 필터 교체시기 등을 확인해 고객에게 정보를 음성으로 전한다. 사용자가 음성으로 제어할 수도 있다. 문맥에 맞는 자연어 처리도 개발 단계다.
-빅데이터 분석으로 B2B 확대하는 'SK텔레콤 누구'
SK텔레콤은 UI로서 음성인식 기술로 국내 최초 AI 스피커 '누구(NUGU)' 이후 '누구 미니' '누구 캔들'과 운전자를 위한 '티맵 누구', 누구를 셋톱박스에 적용한 'Btv 누구'도 선보였다. SK텔레콤은 빅데이터 분석용으로 음성인식 AI 기술을 개발해 자사 고객센터에 적용하고 있다. 음성인식 AI를 활용해 고객센터 모든 상담 데이터를 텍스트로 전환하고 빅데이터 분석에 활용하고 있다. IBK기업은행, 라이나생명 등 금융사에서 사용되면서, B2B 사업도 확장하고 있다. 플랫폼 및 SDK를 개방하고 많은 기업과 사용자가 기능을 활용할 수 있게 할 방침이다.
-자연어 인식기반 복합서비스 지향 'KT 기가지니'
KT는 자체 개발된 음성인식 엔진과 GPU 팜(Farm)을 통한 대용량 데이터 훈련 기반을 마련했다. 다양한 서비스를 위해 데이터 확보 및 오랜 음성 서비스 경험으로 KT가 제공하는 모든 도메인 서비스 음성인식 AI기술에 자연어 인식 기반 해석과 복합 서비스 처리 기술을 결합했다. 음성인식 AI와 함께 복합 서비스 및 상황과 화면 기반 영상 비서 기능은 다양한 서비스에 활용되고 있다. 기가지니 패밀리(기가지니, LTE, 버디, LCD, 키즈워치 등) 및 IPTV, 모바일앱(원내비, 고객센터, 후후, Clip, OTP, OTM 등) 및 커넥티드 카 서비스, AI 콜센터 상담STT 등에 이용되고 있다.
-강력한 데이터와 컴퓨팅 기반 자연어 처리 강점 '구글 어시스턴트'
구글 어시스턴트는 '음향모델' '어휘모델' '언어모델' 등 세 가지 지식모델을 결합해 언어 인식 시스템을 구축했다. 음향모델은 사용자가 말한 문장 또는 구절이 어떤 소리로 구성돼 있는지 세밀하게 파악한다. 어휘 모델에서는 그 언어가 갖고 있는 어휘 목록을 찾아 특정 소리의 연속이 어떤 단어와 매칭되는지 파악한다. 언어모델에서는 앞에서 나온 단어에 기반해 뒤에 어떤 단어가 올 지를 예측하는데, 그 언어에서 자주 사용되는 구문 패턴을 분석하는 방식으로 진행된다.
구글은 보다 자연스러운 언어 소통을 위해 자연어 처리를 구현한다. 사람과 대화하는 듯한 자연스러운 음성을 출력하도록 세 단계로 나눠진 TTS(Text To Speech) 기술을 활용하고 있다. 텍스트 형태 답변을 발음할 때 읽는 형식으로 바꾸고 각 어휘에 맞는 정확한 발음을 선택, 텍스트를 오디오로 변환하는 과정을 거친다. 구글이 보유한 방대한 언어 데이터와 막강한 컴퓨팅 능력이 정확도를 높이고 있다.
-알렉사 기반 다양한 서비스 포진 '아마존 알렉사'
AWS는 알렉사 플랫폼 기반으로 콘텐츠 소유자와 애플리케이션 개발자에게 음성 경험을 제공하고 있다. 아마존 렉스(Amazon Lex)는 음성을 텍스트로 변환하는 자동 음성 인식과 텍스트의 의도를 이해하는 자연어 처리 딥 러닝 기능으로 사용자 경험과 대화형 인터페이스를 갖춘 애플리케이션을 구축할 수 있다. 아마존 폴리(Amazon Polly)는 실제 사람 음성처럼 소리를 합성하는 텍스트 투 스피치 서비스로 다양한 언어와 생생한 음성을 제공한다. 아마존 트랜스크라이브(Amazon Transcribe)는 자동 음성 인식 서비스인데, 이 API를 사용하면 아마존 S3에 저장된 오디오 파일을 분석하고 서비스에서 음성을 기록한 텍스트 파일을 반환할 수 있다. 고객 서비스 통화 기록, 오디오 및 비디오 콘텐츠 자막 생성 등 다양한 애플리케이션에 사용할 수 있다.
- 일 잘하는 만능 비서 표방 '애플 시리'
애플의 음성인식 AI 시리(Siri)는 사용자 편의성에 중심을 두고 더 많은 일을, 미리 알아서 사용자가 손 하나 까딱하지 않는 만능 비서 역할을 표방한다. 전화나 문자를 대신 보내주고 일상 패턴에 맞춘 기능을 해준다. 선호하는 음악 추천이나 음악 관련 정보 외에도 무엇이든 물어보면 답해준다. 검색과 전송이 빠르고 각종 기기에 최적화됐으며, 종단 간 암호화 기술로 데이터 보안도 강하다.