국내 스타트업 플리토가 중국 최대 검색 포털 바이두에 일본어와 중국어 번역 데이터를 수출한다. 중국 국민 번역 서비스인 '바이두 번역'의 고도화에 활용된다. 인공지능(AI) 번역, 인간 번역을 아우르는 플랫폼을 바탕으로 글로벌 협력을 확대한다.
플리토는 6월 중순께 '바이두 NLP'와 계약을 맺고 일본어-중국어 코퍼스(말뭉치)를 제공한다고 25일 밝혔다. 바이두 NLP는 중국에서 가장 많이 사용되는 바이두 번역 서비스를 담당하는 부서다. 수출하는 데이터는 바이두 번역 서비스 고도화에 쓰인다. 양사는 플리토 중국지사 '판이퉁'을 통해 긴밀한 협업을 지속한다.
방대한 양질의 번역 데이터를 확보한 점이 주효했다. 5년 동안 축적된 언어 데이터는 8000만쌍에 이른다. 번역 데이터는 저작권 탓에 쉽게 수집하기가 불가능하다. 번역자의 번역문 저작권과 의뢰 측의 원문 저작권을 모두 고려해야 한다. 번역 데이터 공급 회사가 희소한 이유다.
구글·네이버 등 포털은 참여 번역 사이트를 운영, 이용자의 동의를 받고 번역 데이터를 수집한다. 대가성이 없어 번역 참여에 대한 동기 부여가 약하다. 플리토는 이용자가 원문을 올리면 번역자가 돈을 받고 번역문을 제공하는 집단지성 기반의 온라인 번역 플랫폼을 운영한다. 금전 거래를 통해 저작권 문제와 번역의 질 문제를 모두 해결했다.
최근에는 인공신경망 기계번역(NMT)을 적용한 AI 번역 기능을 추가했다. 무료 번역 서비스를 원하는 이용자가 AI 번역 서비스에 만족하지 않을 경우 즉시 인간 번역가에게 요청할 수 있다. 이를 통해 신조어, 전문용어, 은어, 사투리 등 기계가 파악하기 어려운 번역 정보까지 끊임없이 공급 받는다.
이정수 플리토 대표는 “바이두에서 플리토가 보유한 코퍼스에 매우 만족, 하나의 코퍼스도 추가 수정하지 않을 정도로 양질의 번역 데이터를 보유했다”면서 “인간 번역과 기계 번역을 아우르는 플랫폼을 구현, 양질 데이터의 지속 확보가 가능하다”고 설명했다.
언어 데이터의 활용 가치가 점점 커지고 있다. 4차 산업혁명 시대 핵심인 AI 발전에 필수 요소다. 번역 데이터의 전 처리 과정은 검색과 통·번역 기술 구현에 필수 요소다. 플리토의 글로벌 협력도 가속화된다. 바이두 이외에도 마이크로소프트(MS), NTT도코모 등 다양한 기업과 손잡고 데이터를 공급한다. 중국 지사뿐만 아니라 일본 기업과의 협업을 위해 현지 지사 설립을 추진하고 있다. 아랍어 번역 서비스도 제공, 사우디아라비아·모로코 등 중동 지역의 반응도 뜨겁다.
이 대표는 “플리토는 AI 발전에 필수인 언어 데이터를 생산하는 4차 산업혁명의 최전선에 있는 기업”이라면서 “세계 각지의 다양한 번역·AI 서비스와 연결돼 양질의 데이터를 지속 공급하는 플랫폼이 될 것”이라고 말했다.
오대석기자 ods@etnews.com