사진; 한국전자통신연구원 언어처리연구팀(팀장 최승권)이 모처럼 7동 실험실에 모여 파이팅을 외치고 있다.
전세계 언어를 구사할 줄 몰라도 세계 각국의 TV를 시청할 수 있는 시대가 머지 않았다.
한국전자통신연구원 언어처리연구팀(팀장 최승권)은 지상파방송에서 인터넷방송에 이르기까지 세계 언어를 우리말로 또는 우리말을 세계 언어로 자동번역하는 기술을 10년째 개발하고 있다.
이 팀이 개발한 기술만 해도 한영·영한·일한·한일 자막 번역을 비롯해 언어처리상 가장 구조가 어렵다는 중국어를 우리말로 실시간 자동번역 자막처리하는 시스템을 개발하기도 했다.
이런 다양한 번역기술은 이 팀만이 보유하고 있는 패턴 기반 자동번역 방법론 덕분에 가능하다는 것이 최승권 팀장의 설명이다.
“세계 각국 언어의 특수한 현상들을 처리할 수 있는 모듈을 개발하기 위해 지난 99년부터 2000년까지 2년여에 걸쳐 10여명의 연구진이 심혈을 기울여온 덕택입니다. 이 방법론이야말로 고유한 우리만의 기술력이라고 자부합니다.”
이 연구팀은 이 같은 자동번역 방법론을 기반으로 외국어를 한국어로 바꿀 때는 문틀 기반으로, 한국어를 외국어로 전환할 때는 격틀 기반으로 번역하는 독특한 방법론을 적용하고 있다.
우리말을 중국어로 변환할 경우 우리나라 방송신호에 포함돼 있는 한글 자막 신호를 실시간으로 번역, TV 화면에 나타내주는 방식으로 구현하며 정확한 원시언어 번역 및 자연스러운 목적언어 생성을 위해 동사 패턴을 기반으로 활용한다.
동사 패턴은 지식의 재활용도를 높여주며 패턴 구축에 따른 번역 품질의 향상을 일관되게 유지할 수 있는 것이 장점이다. 특히 한국어와 어순이 다른 외국어로 번역하는 경우에는 문장 내 단어가 어떤 단어와 어떤 관계로 연결되는지를 분석하는 구문분석 등을 통해 시스템을 설계하고 있다. 예를 들어 ‘아빠는 비싼 선물을 사셨다’라는 문장에서 주어(아빠), 수식어(비싼), 목적어(선물), 술어(사다)를 인식하는 식의 구문분석기법을 쓰고 있다.
그동안 자동번역시스템은 웹문서나 문어체 스타일·텍스트 등을 방송 자막으로 처리·응용했지만 앞으로는 한국어의 문어체와 대화체까지 처리가 가능하도록 개발할 계획이다.
특히 영어·일어·한국어·중국어의 실시간 자동번역 처리기술을 태국어나 베트남어 등 동남아권으로 확대한 뒤 향후 불어·독일어·스페인어·포르투갈어·아랍어 등 유럽 및 중동지역의 언어처리로 연구사업의 영역을 넓힐 계획이다.
1단계 사업이 마무리되는 오는 2005년까지는 30억원을 투입, 대화체 번역구조로 가져갈 예정이며 생략과 대명사를 적절한 문장으로 바꿀 수 있는 조응처리 수준까지 끌어올릴 계획이다. 또 2단계 사업이 시작되는 2006년 이후에는 동양어권부터 시작해 매년 1개 국어씩 자동번역시스템을 갖춰 나갈 예정이다.
내년께 730억원 규모로 확대될 한국어 관련 자동번역시장이 실시간 방송자막 자동번역시스템의 출현으로 더욱 빠르게 성장할 것으로 최 팀장은 내다보고 있다.
최 팀장은 “국내 중국어 번역률의 경우 문어체·서술형은 60% 정도의 정확도를 갖추고 있으나 실제 한 문장에서 12개 단어를 추출해 통계를 내는 체감번역률은 80% 수준에 도달해 있다”며 “정보가전 등 다른 분야로의 파급효과도 엄청나게 클 것”이라고 말했다.
<대전=박희범기자 hbpark@etnews.co.kr>