<열린마당> 언어공학은 국가경쟁력

方基洙 (주)언어기술 대표

언어공학은 인간과 컴퓨터 사이의 의사소통을 다루는 분야다. 구체적인 세부 분야는 음성입출력, 문자인식, 자동분석, 언어이해, 문서처리, 다중언어처리 등인데 이 모든 세부 분야의 토대가 되는 것이 사전이다.

외국에서는 이미 오래 전부터 언어를 다루는 전문기업들이 있어 왔으나 국내에서는 최근 들어서야 몇 개의 회사들이 설립됐다. 그러나 그동안 국내에서 관련연구가 진행되지 않은 것은 아니다. 오래 전부터 정부출연 연구소나 학교 중심으로 활발한 연구가 이루어져 왔으나 최근에야 전문회사들이 설립된 것은 단지 상품화 수준의 기술을 확보하기 어려웠기 때문이다.

현재 정부에서는 언어공학의 중요성을 인식하고 우리 말을 정보화하기 위한 장기계획을 수립해 진행하고 있다. 여기서 중요한 것은 투자의 단위다. 우리는 선진 각국의 언어공학 수준이 그들의 오랜 세월에 걸친 지속적인 천문학적 투자의 결과임을 간과해선 안된다. 상당한 기간 모든 면에서 핍박받았던 우리 말을 선진 각국의 수준으로 정보화하기 위해서는 그 세월을 보상할 수 있는 투자가 필요하다. 즉 현재 외국에서 하고 있는 것보다 훨씬 많은 노력이 이루어져야 하는 것이다.

언어공학의 연구결과를 상품화하기 어려운 또다른 이유는 상품화를 위한 개발비의 문제다. 실험실에서 성공적으로 모델링을 했다고 하더라도 그것을 실제로 상품화하기 위해서는 작은 기업으로서는 감당할 수 없는 비용이 들어간다. 그리고 적절한 비용이 들어가지 않으면 아무리 훌륭한 아이디어와 모델을 가지고 있더라도 형편없는 제품이 나올 수밖에 없다.

영, 한 번역의 경우를 보자. 국내에서 가장 앞선 몇몇 제품의 경우 주로 구문 번역의 방식을 채택하고 있다. 그런데 사용자들이 어느 정도 불편을 감수하더라도 일상생활에 잘 사용할 수 있는 수준의 제품을 만들려면 적어도 어느 정도의 의미처리 및 패턴처리가 가미돼야 한다. 또한 대량의 영, 한 대역자료를 통한 테스트 및 되먹임(Feedback)이 필수적이다. 따라서 이러한 작업을 수행하기에 적절한 수준의 투자가 이루어지지 않으면 알고리듬의 우수성이 빛을 낼 수 없는 것이다. 이러한 수준의 작업이 수행되기 위해서는 기존 국내 영, 한 번역 프로그램을 만드는 데 들어간 비용을 모두 합친 것보다 많은 비용이 들어갈 것으로 보인다.

이런 상황에서 굳이 언어처리에 막대한 투자를 해야 하는가 하는 의문이 있을 수 있다. 그러나 이것은 투자의 효과를 고려해 생각해 봐야 할 문제다. 국내의 인터넷 사용자들은 계속 증가하는 추세다. 통신 인프라의 급속한 향상과 함께 전국민이 인터넷을 사용할 날이 눈앞에 다가왔다. 세간에 이르기를 인터넷이 정보의 바다라고 한다. 혹자는 정보의 쓰레기장이라고도 한다. 정보의 바다일지 쓰레기장일지 결정하는 데 가장 중요한 역할을 하는 것이 언어공학이다. 언어공학은 쓰레기장에서 장미를 찾아낼 것이다.

최근 인터넷에 있는 문서의 다수는 외국어다. 아무리 중요한 정보가 들어있다고 하더라도 알아보지 못한다면 그것은 쓰레기더미일 뿐이다. 그렇다고 전국민이 그 정보를 알아보기 위해 모든 외국어를 습득해야 하는가. 그리고 일반 외국어 문서를 쉽게 읽을 수 있는 능력을 획득하기 위해 개인이 노력을 해야 하는가. 한마디로 이것은 국력의 낭비다. 대개의 국민은 외국어를 공부하지 않고도 정보를 획득할 수 있어야 한다.

국내 점유율 80%를 차지하고 있는 워드프로세서 회사가 그 상품을 포기한다고 발표했다. 우리 말과 관련된 연구와 투자를 진행하고 있는 외국의 대기업은 이미 하나둘이 아니라는 것이 주지의 사실이다. 언어공학은 바로 국가경쟁력이다. 범국가적인 적절한 투자가 시급하다.