[사이언스 포커스]음성인식 로봇

 로봇의 외관은 이제 거의 사람과 흡사한 수준까지 왔다. 눈에 잘 띄지 않는 작은 곤충 모양의 로봇도 개발됐다. 시각적 능력이야 어떤 렌즈를 사용하느냐에 따라 인간보다 훨씬 뛰어날 수도 있다. 아직 완벽히 해결되지 않은 문제 중 하나는 로봇의 청각이다. 이에 따라 ‘사람의 말을 알아듣는’ 로봇의 등장을 위한 연구가 국내에서도 속속 진행되고 있다.

 

 21세기 프론티어연구개발사업의 ‘인간기능 생활지원 지능로봇 기술개발사업단’에선 사람이 말하는 ‘자연언어’를 알아듣고 적절한 대답까지 내놓는 로봇에 대한 연구가 한창이다. 로봇이 사람의 자연언어를 올바로 이해하고 반응하는 것은 일부 검색포털에서 쓰이는 음성인식 기술에서 한차원 더 나아가야 한다. 단순한 ‘소리의 문자화’가 아니라 언어에 대한 이해와 이에 대한 배경지식까지 갖춰야 하기 때문이다.

 이를 위해서는 로봇이 습득한 소리 정보를 DB화된 각종 지식을 인공지능 알고리즘에 기반한 언어처리 방식으로 처리하는 기술이 필요하다. 사업단에 참여하고 있는 정민화 서울대학교 언어학과 교수는 “실제 사람처럼 언어를 이해하고 접근하는 인터페이스를 만드는 것은 아직 불가능하지만 영어교육이나 항공·호텔 예약 등 특정한 주제에 대한 대화는 가능한 수준”이라고 말했다.

 실제로 사업단이 개발한 영어교육용 로봇 ‘잉키’와 ‘메로’는 유치원과 초등학교 일선 현장에서 시범적으로 사용되고 있다. 이들 로봇에는 언어처리 소프트웨어·음성합성기 TTS(Text Through Speech)·발음교육 SW가 탑재돼 있어 학생들의 영어에 대한 대답 뿐 아니라 발음 교정까지 가능토록 한다.

 정 교수는 “터치스크린을 통한 촉각 정보 등 다양한 채널을 통한 정보를 소리 정보와 융합해 모바일 기기도 인간과 대화가 가능하게 만드는 연구도 진행 중”이라고 말했다.

 한편 로봇이 인간의 말을 보다 확실히 알아듣고 실제 대화를 나누는 듯한 상호작용이 가능토록 하기 위해선 몇 가지 조건이 필요하다. 우선 방향 감지다. 최종석 한국과학기술연구원(KIST) 지능로봇연구센터 선임연구원은 ‘지능로봇 능동청각 시스템’ 연구를 통해 화자의 방향을 인식하는 로봇 기술을 연구하고 있다.

 최 연구원의 방향감지 기술에는 기본적으로 3개의 마이크가 사용돼 360도 전 방위에서 들려오는 방향을 파악한다. 가정이나 사무실 등에서 쓰이는 목적으로 개발됐기 때문에 최대 거리는 3m 정도다. 최 연구원은 “컴퓨터 시스템을 이용해야 가능한 기술을 소형인 로봇에 축약해 집어넣기 위한 최적화 작업을 필요로 한다”며 “실험결과 3m 이내의 거리에서 95%의 정확도를 보였다”고 말했다.

 여기서 더 나아가 ‘로봇용 인공귀’도 개발했다. 사람 귀와 유사하게 귓바퀴를 덧대고, 빈 구멍과 센서를 혼합해 배치했다. 최 연구원은 “3개의 마이크로는 인간의 외관을 흉내내기 어렵기 때문”이라고 설명했다. 또 ‘소형 플랫폼 방향감지’ 기술로 2㎝ 이내에 두 스피커가 있어도 제대로 방향을 감지할 수 있는 기술도 개발 단계다. 동전 크기의 음성인식 로봇인 셈이다.

 방향 감지와 함께 사람의 목소리를 각종 잡음과 혼돈하지 않고 인식할 수 있는 기술도 필요하다. 이수영 KAIST 전기및전자공학과 교수는 로봇이 사람의 목소리와 다른 소리를 구분토록 하기 위해 벽에 부딪혀 반사되는 ‘반향음’을 이용한 ‘ccICA(closeness constraint Independent Component Analysis·근접음성추출기법)’ 기술을 개발, 특허 출원했다.

 이 교수는 “거리가 멀 경우 실제 소리에 비해 반향음의 크기가 크고, 가까울 경우 반대”라며 “반향음이 가장 작은, 즉 로봇과 가장 가까운 소리를 로봇에 무엇인가 지시를 내리는 사람의 목소리라고 가정한 시스템”이라고 설명했다.

 이 경우 사람의 목소리보다 소음이 더 커도 로봇이 반향음의 거리정보를 계산해 소리정보를 인지하기 때문에 주위 환경에 따른 제약이 대폭 줄어들게 된다.

 최종석 연구원은 영상정보와 소리정보를 융합해 보다 효과적으로 화자를 추적할 수 있도록 했다. 최 연구원이 연구한 ‘멀티모달(multi-modal) 청각 기술’은 로봇이 영상정보를 인식하면서 소리정보가 제대로 된 것인지, 혹은 반향음이나 기타 소음인지를 학습해 나가게 되는 시스템이다. 최 박사는 “2~3초간 영상정보와 소리정보를 혼합해 인식하면서 특정한 ‘백터’를 만들어 로봇이 올바른 화자의 위치를 파악하게 된다”고 말했다.

황태호기자 thhwang@etnews.co.kr