<수요기획-뉴스&밀레니엄> 커버스토리.. 국어 정보화는 "황무지"

 『훈민정음이 창제된 해는 언제지? 세종대왕이 직접 쓴 훈민정음 서문도 영문으로 번역해 출력해줘.』

 컴퓨터에 이러한 질문을 던지면 바로 「1443년」이라는 대답과 함께 훈민정음 서문이 영문으로 출력돼 나온다. 물론 질문과 대답 모두 음성으로 주고받을 수 있다.

 미래의 컴퓨터기술에 대한 구상의 한 단면이다. 그런데 과연 기술의 발전만으로는 우리말을 지능적으로 이해할 수 있는 컴퓨터의 출현이 가능할까. 물론 가능하다. 단 정보처리기술과 함께 자연어처리기술이 필수적으로 뒷받침된다면 말이다.

 자연어처리, 즉 국어정보처리의 중요성은 정보가 바로 언어라는 데서 비롯된다. 인류가 쌓아놓은 대부분의 정보는 숫자와 글로 이뤄져 있다. 정보기술이란 결국 이같은 정보를 더욱 효율적으로 처리하는 기술이란 점에서 언어처리기술의 중요성이 요구되고 있는 것이다. 특히 인터넷의 확산은 우리말 자연어처리에 대한 시급성과 필요성을 더욱 절실히 느끼게 해주고 있다. 그러나 세계 최고의 과학적 언어를 갖고 있다는 우리의 경우 국어의 정보처리기술과 관련해선 사실상 황무지와 같은 현실이다.

 자연어처리란 「컴퓨터에 우리가 실생활에서 사용하는 자연어를 이해시키는 기술적 과정」을 말한다. 이는 한글 단어들을 저장해 놓았다가 문장을 만들어 자동으로 읽는 음성인식 또는 번역소프트웨어기술과는 근본적으로 다르다. 자연어처리를 위해 가장 먼저 해야 할 일은 국어에 대한 완벽한 분석작업이다. 특히 인간의 관점에서 바라봤던 국어를 유추능력이 없는 컴퓨터에 이해시키기 위해서는 새로운 관점이 필요하다.

 예컨대 우리는 「차」가 자동차인지 마시는 차인지 문장이나 말의 전후관계를 유추해 알 수 있지만 컴퓨터는 전후관계에 대한 명확한 규칙을 미리 알려주지 않으면 이해할 수 없다. 이러한 예는 명사나 동사, 대명사 등 우리가 일반적으로 알고 있는 품사에 모두 적용된다. 즉 기존 인간중심의 문법체계를 컴퓨터의 관점에서 본 새로운 문법체계로 재정립해야 하는 것이다.

 현재 상용화된 번역소프트웨어나 인터넷 검색엔진을 보면 컴퓨터 중심의 문법체계가 왜 필요한지 쉽게 짐작할 수 있다. 영어의 「go」와 「take」가 무조건 「가다」와 「갖다」로만 해석된다면 제대로 된 번역이 나올 리가 없다. 어느 정도 상용화된 분야라 할 수 있는 인터넷 검색엔진의 경우 단순히 명사 검색 수준에 머물러 있고 그나마 검색한 문서의 정확도가 평균 20% 미만이라는 사실도 언어처리기술의 필요성을 잘 말해주고 있다. 음성인식과 통역시스템은 물론 한글정보처리 기반의 대다수 소프트웨어들 역시 고품질의 정보처리능력을 갖추기 위해서는 자연어처리기술의 발전이 필수적이다.

 그러나 이같은 중요성에도 불구하고 국어의 자연어처리기술은 넘어야 할 산이 한둘이 아니다. 그 가운데서도 컴퓨터 중심의 새로운 문법체계 정립은 가장 시급한 과제다. 국어의 세분화된 규칙 정립이 안돼 있으면 이를 프로그래밍할 수 없기 때문이다. 이런 점에서 보면 현재까지 국내에는 제대로 된 국어사전이 없다는 것도 큰 문제거리다. 또 있더라도 컴퓨터가 아닌 사람중심의 문법체계로 구성된 것들뿐이다. 사전은 언어의 문법체계를 집대성한 것이다. 따라서 사전만 잘 갖춰져 있으면 프로그래밍은 그만큼 수월해지는 것이다.

 국내 사전류는 이와 함께 규모면에서도 영국·프랑스·미국 등이 보유하고 있는 체계적이고 막대한 분량의 각종 사전들에 비해 초라하기 그지 없다. 또 각종 정보처리용 전자사전 구축과정에서 국어학자들의 도움이나 협조없이 전산학자나 소프트웨어엔지니어들의 필요에 의해 일방적으로 진행되고 있다는 것도 문제점으로 지적된다. 그나마 전산학자나 엔지니어들 사이에서도 의견이 분분해 품사의 표준화도 전무한 실정이다.

 그래서 제기된 것이 전산학자와 국어학자간의 학문적 공조체제 구축방안이다. 이제는 국어학자들도 정보기술 분야에 대한 관심과 전문성을 갖추어야 하며 엔지니어들 역시 기술적 관점만을 고집해서는 안된다는 지적이다.

 다행히 이러한 문제에 대한 인식이 최근 조금씩 바뀌고 있다. 국가 차원의 지원과제로 지난해부터 전산학자와 국어학자들이 함께 참여하는 한국어 정보처리 연구가 진행되고 있는 것이다. 실례로 문화관광부가 국어기초자료 구축을 위해 지원하는 「21세기 세종계획」을 비롯, 정보통신부가 지원하는 「우리말 정보처리기술 개발」 등이 있다. 여기에 지난 94년부터 과학기술부가 추진해온 「STEP2000」도 한국어 정보처리 분야를 중점 과제로 설정해 2차연도 결과가 도출돼 있다.

 이제 결론은 간단해졌다. 과제들의 성격상 자연어처리기술 개발은 결코 단발로 끝날 성질의 것이 아니다. 이들 과제가 성공적으로 추진되기 위해서는 보다 과감하고 지속적인 정부 지원이 필요하다는 것이다. 일부에서 벌써부터 우려의 소리가 나오는 것은 그간의 정부과제들이 대부분 생색내기용으로 끝나버린 전례를 염두에 두었기 때문일 것이다. 물론 이에 앞서 학자들간의 공감대 형성과 협조체제의 구축 그리고 자율적인 연구 분위기가 조성돼야 함은 당연한 일일 것이다.

김상범기자