한양대, 입 움직임만으로 말을 이해하는 AI기술 개발

발행일 : 2023-04-24 14:51

임창환 한양대 바이오메디컬공학과 교수팀이 세계 최초로 3축 가속도계를 이용한 무음 발화 인식 기술을 개발했다고 한양대가 24일 밝혔다.

무음 발화 인식 기술은 목소리 없이 입 움직임을 분석해 단어를 인식하는 기술을 말한다. 성대 장애로 목소리를 내지 못하는 환자 의사소통을 도울 수 있을 것으로 기대된다.

인공지능(AI) 스피커 등에 널리 쓰이는 음성인식 기술에 비해 무음 발화 인식 기술은 아직 개발 초기 단계에 있다. 가장 간단한 무음 발화 인식 방법은 카메라로 입모양 변화를 촬영하는 것이지만 카메라 시야에 얼굴 전체가 잡히는 환경에서만 사용이 가능하다는 한계가 있다.

이외에도 혀, 입술, 턱과 같은 조음기관에 측정기를 부착하는 기술도 개발됐지만 크기가 크고 사용자의 일상생활에 큰 불편을 줄 수 있다는 단점이 있다. 발화 시 얼굴 근육 근전도나 피부 변형을 측정하는 방법 또한 센서가 피부에 항상 부착돼 있어야 한다는 불편이 있으며, 센서 내구성이 약하고 정확도가 낮다.

임 교수팀은 스마트폰이나 스마트 워치 등에 내장되는 3축 가속도계를 입 주위에 부착하고 무음 발화를 할 때 측정되는 가속도 신호를 이용해 발화 의도를 인식하는 새로운 방식을 제안했다. 임 교수팀은 일상생활에서 널리 쓰이는 40개 단어를 소리 내지 않고 말할 때 입 주위 근육 움직임을 4개 가속도계 센서를 이용해 측정했다.

3축 가속도계를 이용한 무성 발화 인식 시스템(왼쪽) 및 기존의 근전도계를 이용한 무성 발화 인식 시스템(오른쪽), 사진=한양대

임 교수팀은 무음 발화 단어 인식을 위해 합성곱 신경망(CNN)과 장단기 메모리(LSTM) 신경망을 결합한 새로운 딥러닝 구조를 제안해 95.58%의 높은 정확도로 단어를 분류해 내는 데 성공했다. 기존 방법과 비교를 위해 6개 근전도 센서를 이용해 동일한 단어를 분류했을 때 정확도는 89.68%로 연구팀의 방식이 더 우수한 분류 성능을 보였다.

임 교수는 해당 기술에 대해 “발성이 어려운 장애인 의사소통을 위한 새로운 기술로 활용될 수 있을 것”이라며 “실용화를 위해 새끼손톱 크기보다 작은 무선 센서를 개발하고 있다”고 밝혔다. 단어 분류에서 그치지 않고 음성을 합성하는 연구도 진행하고 있으며 가시적 결과를 내어 후속 논문을 준비 중에 있다고 전했다.

정보통신기획평가원 인공지능대학원지원사업 및 산업통상자원부 알키미스트 프로젝트 지원을 받아 수행된 이번 연구 결과는 다학제 공학 분야 상위 5% 국제 학술지인 'Engineering Applications of Artificial Intelligence' 4월호에 게재됐다. 해당 기술은 2020년 9월에 미국 특허를 출원해 최근 등록이 확정됐다.

김명희기자 noprint@etnews.com