[테마특강] 음성인식기술

우리가 컴퓨터를 사용할 때 불편한 점 중 하나는 명령을 키보드로 입력하는 것이다. 그래픽 인터페이스의 발달로 마우스와 키보드를 병용함으로써 편의성이 많이 개선되었으나 사람끼리의 대화에 비하면 아직 불편하기 그지없다. 음성인식기술은 이러한 휴먼 인터페이스가 편리하고 자연스럽도록 개선시켜 줄 핵심기술 중 하나다. 음성인식기술은 음성구동 컴퓨터를 비롯해 무인전화번호 안내, 음성구동 주문형 비디오, 각종 음성안내시스템, 가전제품등 이용영역이 광범위하다.

현재 음성인식기술이 널리 사용되지 않은 것은 두가지 이유에 기인한다.

첫째, 기술이 실용화하기에 충분한 수준으로 발전하지 못한 것이다. 응용분야에 따라 차이가 있으나 음성인식을 실용 제품에 사용하려면 인식률이 약 95% 이상 되어야 한다. 그러나 사람이 자유롭게 말하는 것을 95% 이상 인식하는 것은 현재로서는 불가능하다. 둘째로는 현재까지 개발한 기술을 실용시스템에 접목하는 기술이 부족하다는 점이다. 응용분야별 음성인식 요구사항이무엇인지, 또 음성인식을 사용자 인터페이스로 사용할때 어떤 방식을 사용해야 효과적인지 등의 연구가 부족하다.

물론 컴퓨터의 성능과 음성인식기술이 발전함에 따라 상황이 변하고 있다.

몇년 내 음성인식의 이용이 가속화하여 여러 분야의 휴먼 인터페이스에 적지않은 변화가 올 것으로 예견되고 있다.

음성인식은 응용분야와 사용기술에 따라 여러가지 종류가 있다.

우선 특정 사용자의 음성만을 인식하는 화자종속 음성인식과 여러사람의음성을 인식하는 화자독립 음성인식을 들 수 있다. 화자종속 음성인식은 화자독립 음성인식에 비해 인식률이 높아 실용화하기에 유리하다. 스프린트가서비스하는 보이스 폰카드는 30개까지의 이름을 저장해두고, 전화걸 때 사람이름만 이야기하면 그 사람의 전화번호를 찾아 자동으로 전화를 걸어주는 것으로, 화자종속 음성인식의 대표적 예다.

화자독립 음성인식의 예는 AT&T가 수신자부담 전화를 응용한 것으로 수신자부담 전화를 수신자가 받아들일 것인지 여부의 대답을 인식하는 기능을 수행한다. 현재 인식률은 화자종속 음성인식이 95~98%, 화자독립 음성인식이 90~97% 정도이다.

또 음성인식의 단위에 따라 고립단어 및 연속음성인식으로 나눌 수 있다.

고립단어인식은 짧은 음성명령이나 간단한 음성제어 등에 주로 사용된다.

숫자음을 인식하여 음성버튼으로 사용하는 경우 「1」이라는 다이얼 버튼을 누르는 대신 「일」이라고 말을 하면 된다. 고립단어인식은 인식률이 높고 구현하기 간단해 널리 이용되고 있으나 사용자가 이용하기 불편하다는 것이 단점이다.

연속음성인식은 문장을 인식하기 때문에 사용자가 단어 단위로 끊어 발음하지 않아도 된다. 이 시스템은 종전 인식률이 95% 이하이고, 인식 어휘 수에도 제약이 많았다. 그러나 최근 알고리듬 개선, 인간공학기술 이용 등으로1천~3천어휘에 95% 이상의 인식률을 보인다.

수백어휘 이내의 단어를 인식하는 소어휘시스템은 인식률과 신뢰도가 높다. 그러나 어휘가 제한돼 특정 응용분야를 지원하는 시스템으로만 개발되고있다. 대어휘 시스템의 경우 수만단어 어휘까지 인식 가능하지만 인식률이낮고 말할 때 사용자가 발음에 주의를 기울여야 하는 불편이 있다.

80년대까지는 사용자가 또박또박 발음해야 하는 낭독체 음성인식기술이 주로 개발됐다. 그러나 최근에는 사람과 대화하듯이 자연스럽게 말하는 대화체음성인식에 많은 연구를 집중하고 있다. 현재 세계 수준은 2천~3천단어로 이루어진 대화체의 인식률이 약 70% 정도 된다.

음성인식에 필요한 어휘 수를 줄이기 위해 사용하는 단어부분(Word Spotting) 음성인식기술이 있는데 이 기술은 문장 중 키워드만을 찾아내 인식하는것이다. 예컨대 전화안내시스템에 『저어, 총무과 좀 바꿔주세요』라는 문장이 입력되면 「총무과」만을 인식해 전화번호를 알려주는 것이다. 이 기술을이용하면 적은 어휘로 다양한 문장을 받아들일 수 있는 장점이 있다. 프레지어스포팅(Phrase Spotting) 음성인기술은 한 문장 내에서 연속단어 열을 찾아내는 것으로 워드스포팅보다 더 잘 동작한다.

음성인식시스템은 보통 마이크로입력된 음성신호를 보통 16KHz로 표본검출, 신호분석을 거친다. 이 신호분석시 인간의 청각필터 특성을 감안하기도한다. 그 결과는 10msec간격으로 특징벡터라 불리는 숫자 열을 구성한다. 특징벡터는 음향분석(Acoustic Analysis)을 거치게 되는데 이 때 두 가지의 음향모델(Acoustic Model)을 이용할 수 있다. 한가지는 인식대상 단어, 음소등 어떤 특징벡터를 모델로 설정하고 이와 얼마나 유사한가 비교(Match)하는방법과 또 다른 한가지는 상태열(State Sequence)을 비교대상으로 쓸 수가있다. 상태열은 복잡한 모델을 표시할 수 있어 간단한 단어인식을 제외하고는 대부분 이를 이용한다. 음향모델로는 단어, 음절, 반음절, 음소 등 다양한 단위를 사용할 수 있다.

음향분석으로 구해진 프레임 스코어(Frame Score)를 DTW(Dynamic Time Warping)나 비터비 서치(Viterbi Search)를 이용해 시간적 배열(Time alignment)을 하게 된다. 이는 앞단계에서 구한 프레임 스코어의 열로부터 각 상태열간 어떤 관계가 있는가, 즉 음소 사이의 관계, 단어간 시간적 배열관계를 이용해 최종적으로 단어의 열을 찾아내는 것이다.

이는 문맥분석 등 자연어처리에 의해 인식결과를 더욱 향상시킬 수도 있다.

DTW는 Dynamic Programming 방법을 패턴매치에 이용하는 것으로 고립단어인식에 이용될 수 있다.

HMM은 음의 상태가 한 상태에서 다음 상태로 바뀌는 것을 천이 확률로 표현한다. HMM은 음성의 시간적 특징을 비교적 잘 반영하는 뛰어난 특성으로인해 음성인식에 가장 널리 이용되고 있다.

HMM은 매우 유용하나 몇가지 단점을 갖고 있다. 우선 모든 확률이 현재 상태에만 의존한다는 가정(1st order assumption)하에 처리한다는 점이다. 이는 조음효과(Coarticulation)를 충분히 모델링하기에 부족하다. 또 HMM은 이웃한 입력 프레임이 서로 상관관계를 가지고 있음에도 이를 독립적으로 처리하는 단점이 있다. 이러한 단점은 HMM이 문맥에 의존하는 음소모델을 사용하여야만 성능을 발휘할 수 있게 하고 이는 방대한 변수를 다루어야 하는 문제를 야기한다.

인공신경망은 입력과 출력사이의 비선형 함수관계를 학습하는 특성을 가지고 있으므로 HMM의 단점을 보강하는 수단으로 많이 연구되고 있다. 그러나현재의 인공신경망이 가지고 있는 문제점은 시간적인 상관관계를 잘 학습하지 못하는 점이다. 따라서 인공신경망과 HMM을 결합한 모델이 많이 이용된다.

음성인식기술을 응용한 시스템은 많다. 우선 받아쓰기 시스템을 들 수 있는데 여기에는 특정양식의 받아쓰기와 자유로운 받아쓰기의 두 종류가 있다.

자유로운 받아쓰기는 편지, 원고 등 임의문장을 조용한 사무실에서 오퍼레이터용 마이크를 통해 수만단어 어휘를 받아쓸 수 있다. 드래곤사, IBM, 크르츠웨일사가 이같은 시스템을 팔고 있다. 특정양식의 받아쓰기는 보험서식이나 병원의 응급환자 보고서식과 같은 특정양식의 보고서를 작성하는 데 사용된다. 이 때는 문맥지식을 이용할 수 있으므로 자유로운 받아쓰기보다 인식률이 높고 또박또박 발음하지 않아도 된다.

음성 컴퓨터 인터페이스는 손과 눈을 쓰지 않고 입력할 수 있는 자유를 가져다 준다. 애플컴퓨터는 매킨토시에 캐스퍼라는 음성인식시스템을 장착해판매하고 있다. 마이크로소프트도 윈도 OS에 곧 음성인식시스템을 포함할 예정이다. 특히 PDA는 키보드를 쓸 수 없어 음성인식기능이 절실히 요구된다.

애플은 뉴턴 PDA에 이를 이용하고 있으나 아직 인식률이 사용자의 요구 수준에 이르지 못하고 있다.

음성만을 사용하는 전화이용서비스는 114 안내시스템처럼 항상 사람이 처리해야 한다. 그러나 이는 막대한 인건비가 소요되므로 음성인식의 필요성이절실한 분야 중 하나이다. 실제 세계 각국의 전화회사가 가장 많이 음성인식연구에 투자를 하고 있으며, 음성 다이얼링 등 많은 응용 분야가 실용화되고있다.

이 밖에도 각종 분야의 시스템에 명령어 인식 또는 데이터 이용을 위해 음성인식 연구가 진행되고 있다.

우리나라는 고유한 언어를 사용하고 온 국민이 국어에 대한 사랑이 각별하기 때문에 한국어 음성인식은 많은 사람에게 관심사가 되어 왔다. 그러나 독자적인 언어체계를 유지 발전시키려면 지금보다 훨씬 더 많은 노력을 기울여야 할 것이다.

현재 국책연구로는 ETRI가 음성언어 번역연구의 일환으로 정보통신부의 지원을 받아 대화체 음성인식기술을 연구하고 있다. ETRI는 이 연구에서 쌓은기술의 실용화를 위해 앞으로는 산업체 연구원의 파견을 받아들여 각 업체의실용화를 돕는 연구를 수행할 계획이다. 삼성전자는 최근 음성명령어를 인식하는 PC를 발표한 바 있다.

아직 초보적인 단계로 실용적인 수준은 아니지만 음성인식 컴퓨터에 대한일반인의 인식을 높이는 데 많은 기여를 하고 있다. 한국통신은 전화로 주식시세 안내를 하는 시스템을 곧 실용화할 계획이다. 이 밖에 주요 전자회사들도 자동차 내의 음성인식, 공장자동화를 위한 명령어인식 등 음성언어 연구에 힘을 기울이고 있다.

지금까지 음성인식 연구는 대학을 중심으로 주로 실험실 내의 인식률을 높이는 데 주력해 왔다. 그러나 이제 어떻게 실용화하느냐가 중요한 문제로 부각되고 있다. 실험에 의하면 사람의 음성인식률도 98%에 불과하다. 따라서완벽하지 않은 인식률이 1백%가 되기까지 실용화를 미루기보다는 현재의 인식률을 어떻게 활용할 수 있는가를 해결해야 한다. 응용분야의 적절한 선정및 인터페이스의 인간공학적인 설계 등의 방법이 해결책이 될 수 있다. 물론현재 약 70% 정도인 대화체 인식률을 90% 이상으로 향상시키는 노력도 해결해야 할 과제이다.