한국전자통신연구원(ETRI·원장 김명준)이 최첨단 한국어 언어모델을 개발해 공개했다. 이 모델은 한국어 특성을 반영해 구글 모델보다 뛰어난 성능을 자랑한다. 향후 인공지능(AI) 비서, AI 질의응답, 지능형 검색 등 한국어를 활용한 서비스 고도화에 쓰인다.
ETRI는 한국어 언어모델 '코버트(KorBERT)'를 자체 운영하는 'API·데이터 서비스 포털'에 10일 공개했다.
언어모델은 단어가 나타날 확률 분포를 모은 말뭉치다. 자연어 처리 딥러닝에 필수 요소다. 기존에는 구글이 개발한 다국어 모델 '버트(BERT)'가 주로 쓰였다.
코버트는 버트에 비해 5가지 성능 평가 항목에서 뛰어나다. 문장 유사도 추론, 주제 분류, 기계독해 등 영역에서 정확도 성능이 평균 4.5% 우수했다. 특히 정답 단락을 순위화하는 '단락순위화' 평가에서는 7.4% 높았다.
한국어 특성을 반영한 결과다. 버트는 단어가 모두 떨어져 있는 고립어 기반인데, 코버트는 어근에 접사가 붙는 교착어 기반이다. 한국어는 대표적인 교착어다. ETRI는 고립어에 맞게 의미 최소 단위인 형태소까지 고려하는 모델을 구현, 정확도를 높였다.
학습 데이터도 늘렸다. 버트가 사용한 데이터는 40여만건 위키백과 문서다. ETRI는 여기에 총 23기가바이트(GB)에 달하는 신문기사·백과사전 정보를 더해 45억개 형태소를 학습시켰다.
코버트는 AI 서비스 경쟁력을 높이는데 활용가능하다. 주요 딥러닝 프레임워크인 파이토치나 텐서플로우 환경에서 모두 사용할 수 있다. 이미 지난 3월부터 한컴오피스 지식검색 베타버전에 활용되고 있다.
ETRI는 별도로 코버트를 활용한 법령 분야 질의응답 API를 추가 공개하고 유사 특허 지능형 분석기술도 출시할 계획이다. 더 많은 언어 데이터를 처리할 수 있도록 모델 고도화도 준비하고 있다.
김현기 ETRI 박사는 “한국어에 최적화된 언어모델을 만들었다”며 “한국어 분석, 지식추론, 질의응답 등 다양한 한국어 딥러닝 기술 고도화가 가능할 것”이라고 말했다.
대전=김영준기자 kyj85@etnews.com