#2018년 도널드 트럼프 미국 대통령이 한국어를 구사하는 동영상이 온라인에 공개됐다. 목소리가 영락없는 트럼프 대통령이었다. 유창한 한국어는 아니었지만 상당한 수준이었다. 실제 트럼프 대통령이 말한 것이 아니었다. 국내 스타트업인 네오사피엔스의 인공지능(AI) 딥러닝 기반 음성합성기술의 결과물이었다.
#온라인 스트리밍 방송에는 '음성 도네이션'이라는 기능이 있다. 방송을 진행하는 스트리머에게 후원금을 보내는 동시에 전자 음성을 방송 중 출력하는 서비스다. 시청자가 자신의 메시지를 방송 중 실시간으로 띄울 수 있어 인기가 많다. 과거에는 어색한 목소리와 말투의 인공 음성이 나왔다. 최근에는 특정 스트리머 목소리를 그대로 복제한 음성 도네이션이 각광받고 있다.
음성합성기술은 인위적으로 사람 목소리를 만들어낸다. 문자를 음성으로 바꿔준다는 의미에서 TTS(Text To Speech)라고 부르기도 한다. 우리는 이미 오래 전부터 이 기술을 써왔다. 콜센터, 대중교통 안내방송 등에서 음성합성기술이 사용된다.
음성합성기술은 모든 메시지를 사람이 하나하나 녹음해야 하는 수고로움을 덜었다. 성우의 말을 한 번 녹음한 뒤 이를 음성 단위로 저장한다. 음성으로 출력할 때 저장했던 음성을 꺼내 쓰는 방식이다.
실제로 사람이 말하는 것처럼 표현하는 수준까지는 미치지 못했다. 과거 인공 음성은 어색했다. 어색함 때문에 온라인 커뮤니티를 중심으로 구글 TTS를 활용한 인터넷 유희가 대중화되기도 했다. 인공 음성이 주는 어색함을 'B급 감성'의 웃음과 재미로 살린 것이다.
AI와 음성합성기술이 결합하면서 인공 음성은 진일보하고 있다. AI 딥러닝 기법을 음성합성에 적용했다. 그 결과 최근 선보이는 인공 음성은 어색함이 크게 줄었다. 상용 서비스도 상당수다.
AI가 1시간 이내 분량으로 특정 인물 목소리를 학습한다. 학습된 음성을 바탕으로 목소리와 말투를 복제하고 응용한다. 감정에 따라서 음성이 바뀌는 기술까지도 선보였다. 국내에서는 셀바스 AI라는 코스닥 상장사를 비롯해 AI 스타트업인 네오사피엔스, 마인즈랩 등이 주목받고 있다. AI와 만난 음성합성기술은 빠르게 성장한다. 일상 영역을 넘어 성우 영역까지 넘보고 있다. 최근 공개된 솔루션은 감정 연기까지 지원한다.
네이버는 지난 2월 '클로바더빙'이란 음성 더빙 서비스를 출시했다. 음성합성 AI기술 클로바보이스를 기반으로 개발됐다. 클로바더빙은 입력한 문장을 자연스러운 억양과 감정으로 표현한다. 누구나 간편하게 더빙 콘텐츠를 만들 수 있게 된 것이다. 지원 목소리는 총 21개로 성인, 아이, 남성, 여성, 기쁨, 슬픔 등을 표현한다.
셀바스AI는 지난해 10월 '셀비 딥TTS'를 출시했다. 감정 표현은 물론 한국어·영어·중국어·일본어까지 구사한다. 감정 강도까지 조절할 수 있다. 산업계는 AI 기술을 빠르게 발전시키고 있다. 발맞춰 음성합성 기술 역시 진보할 전망이다. 기계가 실제 사람처럼 말하는 시대가 머지않은 셈이다.
전문가는 음성합성기술을 통한 새로운 시장이 열릴 것으로 전망했다. 시장, 기술 성숙에 맞춰 딥페이크와 같은 범죄 악용을 막을 대책도 주문했다.
박찬수 과학기술정책연구원 실장은 “인기 스트리머 목소리를 활용한 음성합성 콘텐츠가 새로운 부가가치를 만드는 시대다. 고도화된 음성합성 기술은 새로운 콘텐츠 영역을 창출할 것”이라면서 “목소리를 모방해 보이스피싱과 같은 범죄에 악용될 가능성이 있다. 목소리 진위 여부를 인지하는 기술 역시 보완해야 할 것”이라고 말했다.