KT, 음성·영상에 AI 입힌다…고인 목소리도 복원

발행일 : 2023-09-29 10:19

KT가 생성형 인공지능(AI) 기술을 활용해 음성·영상 서비스를 고도화한다.

KT의 음성 AI 기술은 텍스트를 입력하면 다양한 목소리로 만들어 주는 '음성합성' 기술이 대표적이다. 3분 남짓의 짧은 녹음만으로도 타겟 화자의 목소리를 복원해 녹음하지 않은 문장도 텍스트로 입력해 합성한다.

기존에는 음성을 합성하기 위해 많은 시간의 녹음 데이터가 필요했고, 오랜 시간 같은 목소리 톤으로 녹음할 수 있는 성우만 음성 합성에 참여할 수 있었다. 그러나 최근에는 딥러닝에 기반한 AI 음성 합성 기술이 발전하면서 짧은 시간만 녹음해도 목소리 생성이 가능하고, 목소리 종류도 다양하게 만들 수 있다.

나이, 성별, 다양한 역할에 따라 목소리 생성이 가능하다. KT는 이를 이용해 고(故) 신해철 씨의 목소리를 복원한 후 AI 라디오 방송 콘텐츠를 제작하고, 보호자의 목소리로 자녀에게 동화를 읽어주는 '내 목소리 동화' 서비스를 제공했다. 루게릭병 환자 목소리를 복원하기도 했다.

이러한 기술은 KT 초거대 AI '믿음'을 활용한 AI 전문상담 서비스 '오은영 AI 육아상담'에도 적용됐다. 이 서비스는 AI가 전문 영역에 대한 방대한 지식을 학습하고, 개인화 음성 합성 기술로 전문적인 상담을 제공하는 점이 특징이다.

AI 육아상담은 보호자의 어려움을 감성적으로 공감하고, 대화를 통해 상담에 필요한 문제 상황을 정확하게 인식한다. 여기에 문제 상황에 적합한 외부 전문 지식을 실시간으로 검색한 후 답변을 생성해준다. 상담 이후에는 보호자가 고민하는 문제에 도움이 될 만한 정보를 요약한 솔루션 카드와 '지니TV' 영상 콘텐츠도 함께 제공될 예정이다.

KT의 '영상 생성' 기술은 화면의 객체 인식, 모션 분석 등의 이미지 및 영상 처리 분야에서 활용되는 영상 AI 기술 중 하나다. 대표 사례로 KT 기업간거래(B2C) 메타버스 플랫폼 '지니버스'에 적용된 'AI 홈트윈' 기능과 'AI NPC(이용자가 직접 조종할 수 없는 캐릭터)' 등이 있다.

지니버스의 'AI 홈트윈' 기능은 AI 모델링 기술로 현실 공간을 디지털트윈으로 메타버스에 구현해 준다. 2D 도면을 AI 기술로 분석해 건물 구조와 방 타입, 문·창 등의 구조를 파악하고 배치된 사물 특징을 인식해 디지털트윈 공간을 쉽고 직관적으로 생성한다.

이용자의 다양한 입력에서 AI가 감정 등의 맥락을 분석하고 이해해 콘텐츠를 생성하는 'AI M.I.M' 기능도 있다. '지니포토관'에서는 텍스트를 입력하면 생성 AI 기술을 활용해 이미지를 만들 수 있는데, 생성된 이미지로 '지니포토' 같은 나만의 아바타 콘텐츠를 제작 가능하다.

올 하반기 중 지니버스에 업데이트되는 AI NPC '지니펫'은 생성 AI를 기반으로 자유로운 대화가 가능하며, 멀티모달 형태의 TTS, 감성, 아바타 모션 등을 활용해 이용자와 일상적이거나 감성적인 대화를 나누며 상호작용을 할 수 있다.

박준호 기자 junho@etnews.com