뷰노, '인터스피치2020'에서 AI 음성인식 연구 2편 발표

뷰노 음성인식본부의 연구원이 인터스피치2020 게재 논문을 설명하는 모습 (사진=뷰노)
뷰노 음성인식본부의 연구원이 인터스피치2020 게재 논문을 설명하는 모습 (사진=뷰노)

의료 인공지능(AI) 솔루션 개발 기업 뷰노가 자사 AI 기반 음성인식 관련 연구 논문 2편을 '인터스피치 2020'에서 발표했다고 27일 밝혔다.

국제음성통신협회(ISCA)가 주최하는 인터스피치는 음성인식 분야 최고 권위 국제학회로 매년 1800여명의 음성 언어 처리 관련 학계, 업계, 정부 관계자 등이 참석한다.

뷰노는 학회에서 자사 AI 기반 의료 음성인식 솔루션 '뷰노메드 딥ASR'의 음성인식 엔진 고도화의 일환으로 착수한 2편의 연구 논문을 발표했다. 두 연구 모두 음성인식 분야 최신 연구 주제인 E2E 모델(end-to-end model, 딥러닝 모델만으로 입력된 음성 전문을 즉시 문자화하는 방식)을 기반으로 음성인식 성능을 강화하는 내용을 담고 있다. 뷰노는 향후 해당 연구에서 확인한 기술을 자사 솔루션에 적용해 성능과 정확도를 향상시킬 계획이다.

첫 번째 연구는 E2E 모델을 기반으로 국문뿐 아니라 국영문을 혼용한 음성에서도 가장 높은 성능을 보이는 서브워드(자연어처리 알고리즘에서 전처리로 이용되는 단위)를 도출했으며 자모음, 음절 조합, 바이트 등 다양한 국영문 음성인식 모델을 비교 분석했다.

문자 오류율(CER), 단어 오류율(WER), 문장 오류율(SER)을 현저하게 감소시켰다. 나아가 국내 병원의 의무 기록 데이터를 기반으로 검증해 국내 의료 환경에서의 높은 활용도를 확인했다.

또 다른 연구는 자동 음성인식(ASR)에 신경망 구조 탐색(NAS) 기술을 적용한 새로운 음성인식 방법인 EST(Evolved Speech-Transformer) 모델을 고안했다. 해당 모델은 기존 방식 대비 낮은 단어 오류율로 높은 정확도를 기록하는 한편, 메모리 사용량은 최대 30%, 학습시간은 약 4% 감소시켰다.

성능검증은 영문 데이터셋과 국문 데이터셋을 기반으로 진행돼 향후 방대한 의료용어로 국영문이 혼재된 의료 환경에서도 높은 성능을 보일 수 있을 것으로 기대하고 있다.

김상기 뷰노 음성인식본부장은 “뷰노의 기술력이 집약된 뷰노메드 딥ASR는 국내뿐만 아니라 세계 최고 수준의 성능을 자랑한다”면서 “이번 연구성과를 기반으로 뷰노메드 딥ASR를 고도화해 의료현장의 효율성을 효과적으로 높일 수 있도록 기여하겠다”고 말했다.

정현정기자 iam@etnews.com