대통령 주재로 긴급회의가 열린다. 국무장관, 외교안보담당 특별보좌관, 부통령, 비서실장, 대변인, CIA국장 등 주요인물이 대거 참석한다. 의제는 새벽에 전혀 예상치 못했던 모 지역에서 발발한 무력분쟁.
CIA국장의 간단한 현황보고에 이어 대처방안에 대한 열띤 토의를 한다. 저마다의 의견을 개진한다. 때로는 언성이 높아지기도 한다. 당사자간의 화해를 이끌어 내야 한다는 온건론과 미국이 적극 개입해야 한다는 강경론이 팽팽히 맞선다. 여러 가지 가설을 상정한 끝에 아직 정보가 충분치 못한 것으로 판단, 사태의 추이를 조금 더 주시하기로 의견을 모은다. 「미국은 분쟁이 조속히 해결되기를 바란다」는 성명을 내기로 결정한 후 일단 회의를 마친다.
이러한 회의가 끝난 후 회의 내용에 대해 여러 가지 질문이 있을 수 있다. 『대통령이 한 질문들은 무엇인가』 『대통령이 수집된 정보의 모호성에 대해 화를 내며 CIA국장을 질책했을 때 국무장관은 무엇이라고 이야기 했는가』 또는 『병력이동에 대하여 논의할 때 보좌관의 의견은 무엇이었나.』
미국 카네기멜론대의 알렉스 와이벨 교수가 이끄는 양방향시스템연구소(ISL : Interactive Systems Laboratories)는 이러한 의문에 대해 회의 종료와 함께 즉시 답을 주는 사람의 언어·글씨·대화내용을 종합적으로 인식해 제공하는 시스템 개발을 진행중이다. 이 시스템이 이른바 「멀티모들 회의기록 시스템(Multimodal Meeting Tracker)」이다.
이러한 시스템을 구현하기 위해서는 △회의 참석자들이 한 말을 기록해 주는 음성인식기능 △이미지인식을 통해 누가 어디서 말하고, 또 누구에게 이야기 하는지 판별하는 얼굴 식별기능 및 추적기능 △각 참석자가 적은 메모내용을 인식·저장하는 필기체 글씨 인식기능 △회의 내용을 요약하는 기능 △회의의 모든 내용이 기록된 디지털 데이터베이스를 기반으로 질의에 응답하는 대화 처리 기능 등 5개 기능이 요구된다.
회의 참석자의 음성을 글로 자동 기록하는 기능은 ISL에서 지난 10여년에 걸쳐 개발한 「야누스(JANUS)시스템」을 통해 이뤄진다. 이 시스템은 모든 사람의 대화체 음성을 인식 처리하며 발화자의 발성 습관 및 음색에도 적응할 정도여서 음성신호로부터 발성내용은 물론 감정상태와 문장 스타일까지 추출한다. 이는 목소리에 미치는 감정상태는 물론 사실관계나 자신의 주견을 말할 때의 운율패턴이 달라지는 것을 반영할 수 있다는 의미다.
이 시스템으로 실제 감정상태를 화낼 때, 슬플 때, 기쁠 때, 공포를 느낄 때 등 4가지로 나누어 성능평가를 해 본 결과 70%의 성공률을 보였다. 이는 사람간에도 30% 정도의 인식차이를 보이는 것을 감안할 때 사람의 식별능력에 버금가는 것으로 평가받고 있다.
화면에서 사람의 모습을 추출·식별하는 기능은 이미 개발된 얼굴 추적SW를 이용한다. 이 프로그램은 먼저 비어있는 회의실의 영상과 현재의 영상을 비교하여 사람의 위치를 파악한다. 다음 얼굴 영상 가운데 눈동자·콧구멍 및 입의 위치 정보를 추출해 어느 사람인지 추정한다. 이 정보를 음성을 처리한 음색정보와 결합해 최종 식별판정을 내린다.
시스템상에서 회의 참석자들이 적는 메모를 인식하는 모듈은 와이벨 교수가 최초로 제안한 MSTDNN(Multi-Stage Time Delayed Neural Network)이라는 신경회로망을 이용해 구현됐다. 이 모듈은 글자크기나 자체 방향과 무관하게 5만 단어내에 대해 93%의 인식률을 보인다. 또 대화처리 모듈에서는 사용자의 질의어를 분석해 요청한 작업을 수행되도록 하며, 회의 요약 기능은 회의록으로부터 시간대별 주제어, 사용 단어 빈도수 등을 산출해 회의 흐름을 알 수 있게 해 준다. 이를 통해 주어진 주제에 대한 특정회의에서 어느 참석자가 어떤 의견을 냈는지 등의 요약문을 작성할 수 있다.
ISL은 이 멀티모들 회의기록 시스템을 응용한 다양한 유저인터페이스 기술을 최근 개발하고 있는 군사작전용 CPoF(Command Post of the Future)에 적용하고 있다.
이 시스템은 예를 들어 『3일전 적군의 위치를 표시하라』 『아군의 중화기 부대와 보병부대의 위치를 표시하라』는 등의 구두명령을 내리면 이 시스템은 해당 작전상황을 대형 화면상의 지도위에 그래픽으로 보여준다. 또 부대위치에 가위표를 그어 지워 버리거나 동그라미를 그리면서 『이 부대내 탄약상황은 어떠한가』라는 질의를 하면 해당 사항을 표시토록 해 준다.
멀티모들 인터페이스 기술이 사람과 기계간 통신용이지만 ISL에서는 이외에도 오랫동안 사람과 사람간 통신에 해당하는 음성번역기술에 대한 연구·개발도 수행해 왔다.
이 연구소는 지난 92년 이미 일본·독일·미국의 3국간 음성언어번역 국제시연을 실시해 그 가능성을 입증했고 한국의 ETRI, 일본의 ATR, 이탈리아의 IRST 등과 같이 공동연구 컨소시엄인 C-STAR를 결성하여 음성언어번역 기술개발을 선도하고 있다.
<이재구기자 jklee@etnews.co.kr 신재명기자 smshin@etnews.co.kr 박준 ETRI 교
환전송기술연구소 책임연구원 junpark@etri.re.kr>