국내 연구진이 세계 주요 24개 언어를 인식할 수 있는 기술을 개발하는 쾌거를 이뤘다. 이번에 개발한 음성인식기술은 구글 등 글로벌 업체와 비교했을 때 한국어에서는 우위, 타 언어는 대등한 수준이다.
한국전자통신연구원(ETRI)은 다양한 언어를 음성 인식해 문자로 변환하는 '대화형 AI 기술'을 개발했다고 3일 밝혔다. 음성인식 기술을 개발하려면 대규모 학습데이터가 필요해 다국어 확장과 음성인식 성능 확보가 쉽지 않았다. 연구진은 △자기 지도학습 △의사 레이블 적용 △대용량 다국어 사전 학습 모델 △음성 데이터 오디오 데이터 생성(TTS) 증강 기술 등으로 언어 확장 어려움을 해결했다.
연구진은 기존 활용되던 종단형(End-to-End) 음성인식 기술 단점을 개선해 활용성을 높였다. 음향과 언어 모델, 발음 사전 등을 별도로 학습하던 이전 기술에서 나아가 통합 학습으로 성능을 향상시키는 기술이다. 의료와 법률, 과학기술 등 특정 영역에 인식 특화가 쉽도록 하이브리드 종단형 인식 기술을 개발해 적용했다. 느린 응답속도 문제는 스트리밍 추론 기술로 실시간 처리가 가능하도록 개선했다.
ETRI는 지난 2020년 종단형 음성인식 기술개발 후 30여개 국내·외 기업에 음성인식 기술을 이전했다. 기업이 △회의록 작성 △자막 통역 △키오스크 △의료·교육 △AI 콘택트센터 등 다양한 서비스에 기술을 활용 중이다.
연구진은 이번 신기술 적용을 통해 활용 범위를 확대, 사업화를 추진할 예정이다. 올해 안으로 지원 언어를 30여개로 확대, 동남아와 남미, 아랍권 등에도 사업화를 적극 추진할 예정이다. 김상훈 ETRI 복합지능연구실 책임연구원은 “국내기술로 글로벌 선도업체와 대등한 음성인식 기술을 개발한 데 의의가 있다”면서 “우리나라 AI 분야 글로벌 경쟁력을 높이고 기술자주권을 확보하는 데 도움이 되길 바란다”고 말했다.
한편 ETRI는 지난 20여년간 음성인식 기술개발에 매진해 왔다. 2018년 평창 동계 올림픽 공식 자동통역 서비스에도 핵심 기술을 제공했다.
현재 ETRI에서는 공공인공지능 오픈 API·DATA 서비스 포털을 통해 11개 언어 음성인식 서비스를 제공하고 있다. 이번 성과를 기반으로 24개 언어로 음성인식 서비스를 확대해 중소·벤처기업, 학교, 개인 개발자 등 다양한 사용자들에게 다국어 음성인식 관련 사업 기회를 제공할 예정이다. 이 기술은 과학기술정보통신부 '자율 성장형 복합 AI 원천기술연구' 사업 일환으로 개발됐다. 지난 사업 기간 연구진은 국내·외 논문 17편, 특허 43건, 기술이전 20건과 19억원 기술료 수입을 거뒀다.
김영준기자 kyj85@etnews.com