[e월드]미국-웹 번역 시대 `눈앞`

인터넷 검색엔진 번역 툴의 기술을 이용해 한국어로 번역한 뒤 다시 영문으로 옮기면 엉망진창의 문장이 되기 십상이다.




 컴퓨터는 사람처럼 정확하고 기술적으로 번역할 능력이 없는 게 분명하다. 많은 전문가들은 컴퓨터가 과연 인간처럼 번역할 수 있을지 의구심을 갖고 있다. 그러나 최근 일부 연구원들은 웹 자체가 강력하고 새로운 번역 툴이 될 가능성을 제기하고 있다.




 남캘리포니아대학 정보과학연구소 에드워드 호비 연구원은 “많은 이들이 말하고 싶은 거의 모든 것들이 웹에 나와 있으며 아마도 웹에 이미 번역돼 있을 것”이라고 밝혔다.







 웹은 소설이나 기업문서, 개인서류 등 거의 모든 콘텐츠들의 번역물들로 넘쳐난다. 이들 웹 콘텐츠의 일부는 인간이 일부는 소프트웨어에 의해, 일부는 인간과 소프트웨어의 합작으로 번역된 것이다. 시스트랜이란 업체가 개발한 번역프로그램은 하루에 600만쪽 분량을 번역한다. 이 프로그램의 기본 버전은 알타비스타닷컴(Altavista.com)에서 찾을 수 있다. 대표적인 다른 번역 소프트웨어 업체는 IBM과 SDL인터내셔널, 그리고 파산한 언어 소프트웨어업체인 런아웃 앤 하우스피를 인수한 보운 글로벌 솔루션 등이다. 언젠가는 지금의 번역기법보다 더 정확한 번역이 나올지 모른다. 그러나 지금으로서는 프로그래머들이 대체적으로 번역 대상 문서에서 나올 가능성이 높은 단어와 문구들의 사전들을 종합한 수준의 번역프로그램을 내놓고 있으며 낯설은 문장의 경우 그 해석을 위한 규칙들을 만들어 놓은 정도다.







 현재의 번역프로그램들은 어휘나 표현법이 반복적으로 일어나는 예를 들어 일기예보나 사용설명서의 경우 번역 수준은 상당히 높다. 하지만 이들 프로그램은 마케팅 문서나 계약에서는 사용되지 않는 툴이다. 치수나 날짜, 화폐, 법률, 고유명사 등도 이들 프로그램이 정확히 번역하기에는 너무 복잡하다. 예를 들어 ‘마이크’란 이름의 간부는 한 웹 사이트에 ‘마이크로폰’으로 번역돼 있다. 간단히 말해 컴퓨터는 상식이 없다. 인간이라면 어린아이조차 문맥을 보고 ‘bank’가 돈을 빌리는 곳인지 낚시하는 둑인지 분별할 수 있지만 기계는 이 단어를 어떤 의미로 번역해야 할지 난감해 한다.




 이 경우 컴퓨터는 번역된 수백만 페이지를 조사해 ‘bank’가 ‘account(계정)’라는 단어와 함께 사용됐다면 통상적으로 금융기관을 의미한다고 연역할 정도의 능력은 된다. 따라서 이 같은 모든 규칙을 일일이 프로그램으로 짤 필요는 없다.







 그러나 컴퓨터는 이러한 규칙을 추론해 내기 위해서 완벽하게 정렬되고 번역된 수백만개의 예문을 필요로 한다.




 웹 번역 분야를 연구하는 메릴랜드대학의 필립 레즈닉 교수는 “웹 콘텐츠를 이용하는 새로운 번역 방식에 아직도 장애가 많지만 컴퓨터가 원문과 번역문을 짝지을 수 있는 능력이나 문장들을 완벽하게 정열해 비교할 수 있는 능력을 개발해야 한다”고 지적했다. 레즈닉 교수는 “이 모든 문제들이 나름대로 근거가 있지만 웹 콘텐츠가 다양하고 광범위하기 때문에 번역문과 원문에서 중요한 패턴이 나타나게 된다”며 “웹을 검색해 번역문과 원문 짝 맞추기 성공률이 90%에 이르는 프로그램을 개발했다”고 밝혔다. 그는 오래된 웹 페이지들의 데이터베이스인 인터넷 아카이브(Internet Archive)를 검색하는 데 이 프로그램을 활용, 단어수로는 총 100만개가 되는 영어-아랍어 번역 및 원문 짝을 찾아내기도 했다. <제이 안 기자 jayahn@ibiztoday.com>