라인 주식회사는 세계 최대 규모의 음성·음향·신호처리 학술대회 'ICASSP 2023'에서 논문 8편이 채택됐다고 14일 밝혔다.
채택된 논문 8편 중 6편은 라인이 주저자다. 2편은 다른 저자와 공동 집필한 논문이며, 모두 학회 개최 기간인 6월 4~10일 중 발표된다.
이번에 채택된 논문 중에는 감정 음성 합성 시 텍스트에서 음성 파형으로 변환하는 과정에서 음성 높이 정보를 이용하는 엔드투엔드 모델에 관한 제안이 소개됐다.
기존에는 풍부한 표현을 필요로 하는 감정 음성 합성에 어려움이 있었지만, 변환 과정을 단일 모델로 수행하는 엔드투엔드 모델은 양질의 음성을 생성할 수 있다. 특히 음성 높이가 극단적으로 높거나 낮은 발화에서도 보다 자연스럽고 안정된 결과를 얻을 수 있음을 입증했다.
또 다수의 화자가 혼재된 음성을 분리할 때 이미지 생성에도 활용되는 확산 모델을 이용하는 방식을 제안한 논문이 채택됐다. 제안 방법에서는 이미지 생성에도 활용되는 생성 모델 중 하나인 확산 모델을 음원 분리에 활용함으로써 자연스러운 음성 생성을 실현했다.
라인 관계자는 “앞으로도 AI 기술 기초 연구를 적극 추진해 기존 서비스 품질 향상은 물론 새로운 기능 및 서비스 창출을 위해 노력할 것”이라고 말했다.
함봉균기자 hbkone@etnews.com