다음카카오가 국내 최초로 멀티미디어 데이터를 이용한 음성 합성기를 10일 선보였다. 한국어 음성 처리, 멀티미디어 검색, 대용량 데이터 처리기술을 집약했다.
미디어다음 JTBC 뉴스룸 ‘앵커브리핑’ 코너에서 손석희 앵커가 자신이 작성한 댓글을 읽어준다. 손석희 앵커가 댓글을 작성할 때마다 해당 문장을 녹음하는 것이 아니라, 작성된 댓글을 손석희 앵커 음성으로 자동 합성한다.
음성합성은 입력된 문자를 음성으로 변환하는 기술이다. 다음카카오는 온라인에 공개된 지난 1년간 JTBC 뉴스룸 영상에서 데이터를 추출했다.
손석희 앵커가 참여한 JTBC뉴스룸 약 300시간 영상에서 확보한 최종 10시간 분량 음성 데이터를 통해 손석희 앵커 음색과 말투를 학습한 것이다.
JTBC 뉴스룸 영상들을 수집하고 한 군데 모인 ‘대용량 데이터를 분산 처리 기술’로 정리한 후 ‘화자 인식 기술’을 이용해 여러 출연진들 중 손석희 앵커의 음성만을 골라냈다.
음성 합성기 개발을 위해서는 음성과 그에 상응하는 문장이 모두 있어야 한다. 다음카카오는 선별한 음성을 문자로 변환하는 ‘음성 인식 기술’을 적용해 음성과 문장을 모두 파악했다.
잡음이 섞이거나 음색이 불분명한 데이터는 ‘자동 검증 기술’을 통해 걸러냈다. 이렇게 만들어진 데이터를 ‘통계적 음성 합성 기술’에 적용해 손석희 음성, 음향, 운율 특징을 자동으로 학습한 음성 합성기를 만들었다.
이번 시도로 음성 합성 활용처는 대폭 늘어날 전망이다. 세상을 떠난 연예인 목소리로 팬들에게 메시지를 전하거나, 유명 아나운서 목소리로 모바일 뉴스를 읽어주고, 심야 라디오 DJ 목소리로 시를 낭송해주는 등 방법이 무궁무진하다.
다음카카오 관계자는 “앵커브리핑을 시작으로 기술과 환경의 한계를 넘는 혁신적 시도를 지속할 계획”이라고 말했다.
김시소기자 siso@etnews.com