한국말을 잘 알아듣는 인공지능(AI)이 탄생한다.
한국전자통신연구원(ETRI)은 최근 한국어 언어모델 '코버트(KorBERT)'를 공개했다. 코버트는 AI 비서, AI 질의응답, 지능형 검색 등 한국어를 활용한 인공지능 서비스 개발을 지원한다.
공개한 모델은 두 종류다. 하나는 구글의 언어표현 방식에 더 많은 한국어 데이터를 추가해 만든 언어모델이고, 다른 하나는 한국어의 '교착어' 특성까지 반영해 만든 언어모델이다.
![한국말 척척 알아듣는 인공지능 쏟아진다](https://img.etnews.com/photonews/1906/1195146_20190613091309_012_0001.jpg)
그동안 언어 활용 서비스는 구글의 다국어 언어모델 '버트(BERT)'를 주로 이용했다. 언어처리를 위한 딥러닝 기술을 개발하려면 어절을 숫자로 표현해야 하는데 버트가 이를 수행해준다. 버트는 문장 내 어절을 한 글자씩 나눈 뒤 앞뒤로 자주 만나는 글자끼리 단어로 인식한다. 구글의 한국어 언어모델은 40만 건 위키백과 데이터를 활용한 것으로 알려졌다.
코버트는 여기에다 지난 10년 간의 신문기사와 백과사전 정보를 추가했다. 총 23GB 분량 데이터의 45억개 형태소를 학습시켰다.
![한국말 척척 알아듣는 인공지능 쏟아진다](https://img.etnews.com/photonews/1906/1195146_20190613091309_012_0002.jpg)
언어모델이 정교해지려면 한국어 특성에 맞는 훈련 방법이 필요하다.
한국어는 교착어 특성이 있다. 교착어란 실질적 의미를 가진 어간에 문법적 기능을 가진 조사나 접사 등이 결합한 것을 말한다. '의미+문법'의 언어 형태다. 단어 형태가 변하지 않는 고립어(중국어)나 단어 형태의 변화로 문장에 문법적 의미를 부여하는 굴절어(영어)와는 전혀 다른 성질이다.
연구진은 한국어 의미의 최소 단위인 형태소까지 고려한 언어모델 구축에 심혈을 기울였다. 그 결과 코버트는 5가지 기준에서 구글의 한국어 모델보다 성능이 평균 4.5% 우수하다고 평가됐다. 단락 순위화(Passage Ranking) 기준은 구글 모델보다 7.4% 높다.
한계도 있다. 구글과 연구진이 언어모델 개발에 활용한 버트는 512여 개가 넘는 단어가 들어간 문서를 한꺼번에 처리하지 못한다. 대량의 언어 처리가 안 되는 것이다. 연구진은 방대한 언어 데이터를 한 번에 처리할 수 있는 모델을 추가 개발할 계획이다.
권선아기자 sunak@etnews.com