사라져 가는 제주어 AI로 살린다

카카오가 인공지능(AI)을 활용한 '제주어' 번역을 선보였다. 사멸언어 보존은 물론 AI를 활용한 연구 기반을 마련했다. 김범수 카카오 의장이 카카오톡 출시 10주년을 맞아 임직원에게 제시한 “사회문제 해결의 주체가 될 것”이란 주문과 일맥상통한다.

카카오는 제주어 기계번역·음성합성 모델을 확보했다고 19일 밝혔다. 관련 개발을 담당한 카카오브레인 연구팀은 국제공인자동번역률평가(LREC)로부터 '기계번역과 음성합성을 위한 제주어데이터셋(박규병, 최요중, 함지연)' 논문 게재 승인을 받았다. 카카오는 “제주어를 전산학으로 접근한 최초의 연구 성과를 인정 받았다”고 밝혔다.

제주어는 한국 방언 또는 한국어족에 속한 언어 가운데 하나다. 언어학 가치가 높지만 보존이 어려운 상황이다. 1950년대 이전에 태어난 70세 이상 고령층 1만명 정도만 제주어를 자유자재로 구사하고 있을 뿐이다. 유네스코는 지난 2011년에 제주어를 소멸위기언어 4단계인 '심각 단계'로 분류했다. 소멸 직전 단계로 평가한 것이다.

카카오브레인 연구팀은 AI가 제주어를 구현하도록 △제주어 학습 데이터셋 △딥러닝 기계번역 모델 △딥러닝 음성합성 모델을 구축했다. AI가 제주어를 학습하고 발화할 수 있다. 영원히 사라지지 않는 '제주어 능통 구사자'가 탄생한 것이다.

연구팀은 기계학습에 필요한 데이터셋의 자체 확보에 주력했다. 제주어 번역 모델 훈련에 적합한 형태 텍스트 데이터는 물론 잡음이 섞이지 않은 음성 데이터를 보유한 기관이 없기 때문이다.

카카오브레인은 제주학연구센터가 만든 '제주어구술자료집' 2017년과 2018년 버전을 가공, '제주어 문장, 한국어 문장'으로 구성된 17만개 병렬 말뭉치 '제주어구술기록집'(JIT)을 만들었다. 제주 출신 30대 아마추어 성우를 섭외, 약 14시간 동안 녹음해서 '제주어1인구술자료'(JSS)를 확보했다.

JIT와 JSS를 통해 제주어를 학습하고 스스로 발화하는 AI 모델을 구현했다. 카카오브레인은 JIT와 JSS 두 가지 데이터셋을 오픈소스 형태로 공개, 누구나 무료로 활용하게 할 방침이다.

카카오는 'AI 제주어 번역기'가 사멸언어 보존 연구와 관심 환기에 도움을 줄 수 있다고 설명했다. 카카오 관계자는 “전산학 관점에서 제주어 번역기 또는 통역기를 만든 최초 시도”라면서 “사멸 위기에 처한 제주어에 대한 관심을 불러일으키는 계기가 됐으면 하는 바람”이라고 강조했다.

보존 활동 패러다임 변화도 기대된다. 카카오 관계자는 “녹음, 구술 자료집 편찬, 제주어 교육, 연구 및 사전 편찬과 같은 활동뿐만 아니라 AI 학습 데이터셋이나 번역 모델 및 음성합성 모델도 언어 보존 활동의 일환이라고 볼 수 있다”고 설명했다.


후속 연구 방향은 열어 놨다. 필요하다면 관련 기관과 협업할 계획이다. 박규병 카카오브레인 연구원은 “이번 연구가 국내외 학자가 제주어에 대한 관심을 지속해서 기울이는 계기가 됐으면 한다”면서 “제주어를 전산학으로 접근하는 데 산·학 협력과 지방자치단체 차원의 지원이 활발해지길 바란다”고 말했다.

카카오프렌즈, 프렌즈 인 제주 제품. 사진=카카오
카카오프렌즈, 프렌즈 인 제주 제품. 사진=카카오

김시소기자 siso@etnews.com