리드스피커코리아, 커스텀보이스 시장 개척에 나서

리드스피커코리아 `DNN HQ Micro'출시
운율·음 길이 등 파라미터 과정 생략
합성 시간 줄이고 고음질 구현 '장점'
CPU만으로 작동…비용 절감 효과도

리드스피커코리아 음성합성기 개발 이미지.
리드스피커코리아 음성합성기 개발 이미지.

기업 브랜드나 상품 마케팅에 고유 음성을 입혀 이미지 차별화를 꾀하는 커스텀 보이스 시장이 급부상하고 있다.

리드스피커코리아(대표 이종석)는 인공지능(AI) 음성합성기 'DNN(Deep Neural Network) HQ(High Quality) Micro'를 출시했다고 30일 밝혔다.

'DNN HQ Micro'는 문자를 음성 정보로 바꿔주는 음성합성 기술에 AI 기술을 접목, 저비용으로 빠르게 사람 같은 자연스러운 음성을 만들어낼 수 있다. 리드스피커코리아의 다양한 산학협력 성과와 20년 이상 서비스 경험이 집약된 제품이다.

◇ 빠르게 고품질 음성합성 가능

리드스피커코리아는 2017년 국내 첫 AI 기반 음성합성기 출시를 시작으로 현재 주요 언어 32개와 92개 음색을 개발 보유하고 있는 음성전문 기업이다.

고객이 원하는 목소리를 'DNN HQ Micro'를 이용해 빠르게 개발하기 위해 보이스랩(VoiceLab)도 구축했다. 보이스랩은 기존 음성합성 방식에 비해 음질은 높이고 음성합성 개발 기간은 획기적으로 단축할 수 있는 시스템이다.

기존 음성합성 방식인 연결합성(USS: Unit Selection Synthesis)이나 통계 기반 파라미터 합성(SPSS)은 기술적 한계로 평균 성우 녹음 40시간, 음성합성에는 약 6개월 소요됐다.

반면 'DNN HQ Micro'는 AI 적용으로 입력 문자 전처리 과정이나 운율, 음향, 음의 길이 정보 등 파라미터 추출 과정이 없이 음성신호 예측을 하나의 학습모델로 진행한다. 성우 녹음 2~3시간(93%), 음성합성 개발 기간은 1개월 미만(83%)으로 단축할 수 있다.

◇ 기업 적용사용 부담 적어

현재 시장에 출시된 일부 AI 적용 음성합성기는 연산량이 많아 고가의 GPU(그래픽처리장치)가 필요하다.

'DNN HQ Micro'는 GPU 없이 CPU만으로 작동한다. GPU 없이 서버와 PC, 각종 단말기에서 사용할 수 있어 부담이 적다.

리드스피커코리아의 AI 음성합성기 홍보 이미지
리드스피커코리아의 AI 음성합성기 홍보 이미지

리드스피커코리아의 기술적 성장과 제품 고도화 배경에는 지속적인 산학협력 과정이 깔려 있다.

리드스피커코리아의 전신 보이스웨어는 부산대 김형순 전자공학과 교수와 2010년~2014년까지 한국형 AAC 마이토키에 탑재된 HTS 기술을 공동 연구했다. 특정인의 소규모 음성 샘플에서 본인 목소리에 가까운 음색을 표현할 수 있는 화자적응 기술도 개발해 제품화하는데 성공했다.

김 교수는 1992년 국내 첫 상용 음성합성기 '가라사대' 개발책임자로 30년 이상 음성합성과 인식 분야 연구를 수행한 전문가다.

이 같은 산학협력을 통해 리드스피커코리아는 연구개발(R&D) 비용 절감 뿐 아니라 시장진입 리스크를 줄여 수요에 부응하는 음성기술 선도기업으로 성장할 수 있었다.

최근에는 오디오북, 내비게이션, 스마트스피커 등 고객과 맞닿아 있는 음성 서비스 시장 확대에 발맞춰 커스텀보이스 개발 및 서비스에 박차를 가하고 있다.

커스텀보이스는 기업 정체성 강화를 목적으로 고유 브랜드 목소리를 활용한 서비스 제공, 감정 정보를 포함한 풍부한 메시지를 전달할 수 있는 신성장 분야다.

리드스피커코리아는 시장 흐름에 대응해 최근 아시아, 미주, 유럽 등 세계 주요 언어 32개와 92개 음색 개발을 완료했고, 후속 연구에 돌입했다.

리드스피커코리아 음성합성기는 고객이 원하는 음색과 더불어 사용자 사전을 통해 사용자가 원하는 발음 적용이 가능하고 발성 스타일이 정형화되지 않는 목소리도 학습할 수 있다는 점에서 더욱 정교한 커스텀보이스 제작과 목소리 선택의 폭도 넓힐 수 있다.

부산=임동식기자 dslim@etnews.com