오픈AI가 사람 음성을 학습해 모방 음성을 생성하는 인공지능(AI) 도구 '보이스 엔진'을 공개했다.
오픈AI는 자사 블로그에 '인조 음성의 도전과 기회 탐색하기' 제목으로 보이스 엔진 사전 실험 결과를 소개했다.
회사 측은 15초 분량 음성 샘플만 있으면 보이스 엔진을 이용해 화자 목소리와 비슷한 음성을 만들 수 있다고 밝혔다.
오픈AI는 지난 2022년 말 처음 개발한 보이스 엔진을 챗GPT 음성인식·읽어주기 기능과 텍스트-음성 변환 응용프로그램 인터페이스(API)에서 쓰이는 음성 기능 강화에 사용했다고 설명했다.
이어 이 기술의 잠재적 활용 가능성을 알아보기 위해 지난해 말부터 신뢰할 만한 소규모 그룹과 함께 비공개 테스트를 시작했고, 이 그룹이 개발한 애플리케이션에 깊은 인상을 받았다고 덧붙였다.
오픈AI가 공개한 실제 사람 음성 샘플과 보이스 엔진으로 생성한 음성은 구분이 어려울 정도로 비슷했다. 회사는 이 도구를 다양한 분야에서 긍정적인 기능으로 활용할 수 있다고 설명했다.
예를 들어 어린이 교육을 위한 음성 해설 콘텐츠나 실시간 개인 맞춤형 응답 생성 기능, 동영상과 팟캐스트 같은 콘텐츠를 여러 언어로 번역해 글로벌 서비스하는 것이다.
언어별 번역본 생성 음성은 화자의 기존 모국어 음성과 흡사한 수준이다.
아울러 언어 기능에 영향을 주는 질환을 앓는 환자를 위한 치료 애플리케이션이나 장애인을 위한 소통 기기에 지원된 사례도 있다고 오픈AI는 전했다.
다만 오픈AI는 보이스 엔진을 정식 출시하지 않는다고 밝혔다. 오픈 AI 측은 “사람 목소리를 닮은 음성을 생성하는 것은 심각한 위험을 야기하며, 선거가 있는 해에는 특히 더 그렇다는 것을 인지하고 있다”면서 “미국과 해외 정부, 미디어, 엔터테인먼트, 교육, 시민사회 등 다양한 분야와 협력하고, 피드백을 반영하기 위해 노력하고 있다”고 설명했다.
이어 “현재 보이스 엔진을 테스트 중인 파트너들은 당사자 동의나 법적 권리 없이 개인이나 단체를 사칭하는 것을 금지하는 사용 정책에 동의했다”면서 “보이스 엔진에서 생성된 모든 음성 출처를 추적하기 위한 워터마킹 등 일련 안전 조치를 구현했다”고 덧붙였다.
아울러 오픈AI는 음성 생성 기술이 더 발달하는 것에 대비해 은행 계좌나 민감한 정보에 접근할 수 있는 보안 조치에서 음성 기반 인증 방식을 폐지할 것을 권고했다.
회사는 “궁극적으로 이 기술을 널리 배포하든 그렇지 않든, 이 기술이 어디로 향하는지 이해하는 것이 중요하다”면서 “우리는 정책 입안자와 연구자, 개발자 등과 함께 인조 음성 도전·기회에 대해 대화를 이어 나가기를 기대한다”고 덧붙였다.
블룸버그 통신은 “오픈AI가 사람 목소리를 흉내 낼 수 있는 기능을 공개하며 AI 기술의 새로운 지평을 열었다”면서 “딥페이크(AI로 만든 영상이나 이미지, 음성 조작물) 위험 불안감도 일으키고 있다”고 전했다.
류태웅 기자 bigheroryu@etnews.com
-
류태웅 기자기사 더보기