[WIS 2022]ETRI '모바일 회의환경 다자간 음성인식 기술'

한국전자통신연구원(ETRI)은 소리자바와 함께 모바일을 포함한 다양한 회의환경에서 사용할 수 있는 다자간 음성인식 기술을 선보인다.

이 기술은 장소 제약 없이 활용할 수 있다. 기존 유사 시스템은 서버를 기반으로 활용해 네트워크 연결이 필수였다. 반면에 ETRI 기술은 노트북 수준 컴퓨팅 자원만 있으면 언제 어디서나 실시간 활용이 가능하다.

ETRI 모바일 회의환경 다자간 음성인식 기술 개요
ETRI 모바일 회의환경 다자간 음성인식 기술 개요

또 강력한 화자 분리 기능을 갖췄다. 화자를 분리하려면 방대한 화자 정보를 기계학습으로 입력한 후 이를 기반으로 화자 간 발성 경계를 나눠야 하는데 ETRI 신기술은 새로운 알고리즘을 적용해 이를 효율화 및 최적화했다.

사용자별 대화 내용을 구분해 기록할 수 있는 것은 물론이고 다자가 참여하는 회의, 은행이나 병원과 같은 상담 창구에서도 원활한 의사소통을 위해 사용할 수 있다.

ETRI 모바일 회의환경 다자간 음성인식 기술 사용 예
ETRI 모바일 회의환경 다자간 음성인식 기술 사용 예

ETRI 음성인식 기술은 이미 서울시, 전국 각급 교육지청, 주요 은행 등 민간 및 공공분야 100여 곳을 통해 사업화된 바 있다. 지난 2020년과 2021년 국가 연구개발(R&D) 우수성과 100선에 선정되는 등 이미 우수성을 인정받고 있다.

2022 ICT 기술사업화 페스티벌 개최 기간에 메인 테마관과 ETRI 존에서 상시 시연하며 기술 상담도 가능하다.

김영준기자 kyj85@etnews.com