◆한글과 컴퓨터. 우리 고유의 한글과 첨단기기인 컴퓨터는 어울릴 것 같지 않다. 그러나 우리 한글은 컴퓨터 산업발전과 궤를 같이하며 놀라운 발전을 이룩했다. 컴퓨터 사용자를 위해 다양한 서체가 개발되고 외국어를 한글로 변환하는 변환 소프트웨어(SW), 문장으로 정보를 찾아주는 자연어 검색에 이르기까지 한글을 이용한 우리의 SW기술은 급진전되고 있다. 한글날을 맞아 이들 제품의 현주소를 살펴본다. 편집자◆
◇한글서체=명조체·굴림체·돋움체·바탕체. 컴퓨터에서 한글을 표현해주는 대표적인 서체들이다.
다른 언어와 비교해볼 때 컴퓨터와 인터넷에서 한글은 얼마나 아름답고 다양하게 표현되고 있을까.
현재 한글 서체는 400종 정도로 추정된다. 이 가운데 업체별로 중복되는 부분을 제외하면 그 수는 100종 정도다. 이에 비해 영어 서체는 5000에서 6000여종에 이른다. 한글 표현이 그만큼 다양하지 못하다는 것을 보여주는 것이다.
국내에서 컴퓨터 서체개발은 80년대 초반부터 시작됐으며 90년대초부터 시장이 형성됐다. 개발이 왕성하던 90년대초 서체 개발업체는 14∼15개에 이르렀지만 최근에는 7개 정도로 줄어들었다. 그나마 영세한 업체가 대부분이라 실제 개발을 진행하고 있는 곳은 4곳 정도다. IMF의 영향으로 많은 업체가 문을 닫은 것이다. 업체의 감소는 서체의 종류나 질의 저하와 직결되는 문제다.
서울시스템의 윤광용 실장은 『장기적으로 봤을 때 양적, 질적 측면에서의 문제』라고 지적한다.
그는 『인터넷에서 새로 개발된 서체를 통해 콘텐츠를 제공한다 하더라도 사용자의 PC에 그 서체가 저장돼 있지 않으면 볼 수 없다』며 『외국의 경우 이런 문제를 해결하기 위해 웹서버에서 서체를 제공할 수 있도록 하는 연구를 진행하는 등 다양한 서체지원 방안을 모색하고 있는 데 반해 우리나라에서는 이런 지원책에 대한 관심이 부족하다』고 말했다.
윤 실장은 서체와 서체지원 환경개발을 활성화하기 위해서는 수익성 위주의 접근법을 버려야 하며 정부나 학계의 적극적인 지원이 필요하다고 말했다.
◇한글 번역 소프트웨어=지난 7월 국문과 교수와 연구원들이 주축을 이룬 한국어공학연구소는 국내 시판되고 있는 영한 번역SW 5종에 대해 벤치마크를 했다. 제품마다 차이가 있지만 한국어공학연구소가 내린 결론은 평균번역률 60%. 번역SW 업체들이 주장하는 번역률 90%와는 큰 차이가 있다.
언어공학연구소의 장충남 사장은 『번역SW가 처음 개발된 것은 96년의 일로 아직 기술개발 초기단계』라며 『과거 번역SW 수준이 번역시간 단축에 주력하고 번역된 단어의 나열에 그쳤다면 최근에는 자연어 처리에서 한발짝 더 나아간 기술을 적용해 번역의 질을 향상하는 데 초점을 맞추고 있다』고 밝혔다.
과거 번역SW 업체들은 시제의 변화나 어미의 활용 등을 파악하는 자연어 처리기술에 힘을 쏟았지만 최근에는 통계 언어학과 지식 데이터베이스로 개발 분야를 확대하고 있다.
통계 언어학은 여러 개인 단어의 의미를 정확하게 번역하기 위해 앞뒤 단어의 의미까지 판단하는 기술이다. 지식 데이터베이스는 「Apple」을 「사과」라는 뜻뿐만 아니라 「컴퓨터회사」라는 의미로까지 확장해 단어의 데이터베이스를 만드는 것이다.
이러한 번역SW 업체의 기술개발에도 불구하고 국내 번역SW 수준은 일본에 비해 5년 이상 뒤떨어졌다고 전문가들은 입을 모은다. 그 이유는 국가차원의 지원이 미흡하다는 것이다.
엘엔아이소프트 임종남 사장은 『인터넷의 확산으로 얻을 수 있는 정보의 양은 기하급수적으로 늘어났지만 언어문제가 걸림돌이 되고 있다. 번역SW에 대한 국가적 투자는 지식 정보화를 앞당기는 지름길』이라고 말했다.
◇자연어 검색기술=한글 자연어 처리 및 검색 기술은 국어 정보화를 실현하는 데 매우 중요한 도구다.
자연어 처리 검색이란 인터넷이나 데이터베이스 검색시 우리가 일상적으로 사용하는 말을 그대로 검색에 활용하는 것을 말한다. 가령 「세상에서 가장 빠른 기차는 무엇인가」라는 한글문장을 입력해 자기가 찾고 싶은 정보를 찾을수 있는 게 바로 자연어 처리기술이다. 종전의 검색엔진은 이같은 구문을 입력하면 문장구조를 이해하지 못해 관련정보를 전혀 찾지 못하거나 「세상」 「기차」 「빠른」 등 단어를 별개로 인식해 연관이 없는 정보나 자료를 쏟아낸다.
자연어 처리가 가능하기 위해서는 검색엔진이 한글 문장구조를 완벽하게 이해하고 있어야만 한다. 사실 그동안 국내 학계나 IT업계에서는 우리말 문체의 모호성 등 교착어에 나타나는 특수성으로 인해 구문분석 기술을 응용한 언어처리와 검색이 불가능한 것으로 인식됐다.
그러나 최근 들어 자연어 처리분야에서도 기술적인 진전이 이뤄지고 있다. 외국어대 언어학과 고수인 아르고스21는 최근 우리말 구문분석이 가능한 자연어 처리기술을 개발했다고 밝혔다. 아르고스21은 그동안 형태소 분석에만 머물렀던 한글 자연어 처리기술을 한단계 발전시켜 자연어 처리수준의 문장분석기인 「파서」를 개발했다고 밝혔다.
검색엔진 전문업체인 서치캐스트 역시 멀티미디어와 자연어처리가 가능한 제품을 개발 또는 개발중이며 라스21·한국정보공학·소프트와이즈 등 검색엔진 업체들도 자연어 처리기술 확보에 관심을 기울이고 있다.
<장길수기자 ksjang@etnews.co.kr 장동준기자 djjang@etnews.co.kr 김인진기자 ijin@etnews.co.kr>