NHN다이퀘스트, AI 기술에 중요한 국립국어원 ‘국어 빅데이터’ 사업 수주

NHN다이퀘스트, AI 기술에 중요한 국립국어원 ‘국어 빅데이터’ 사업 수주

NHN다이퀘스트(대표 강락근)는 국가 언어 자원의 활용성 확산을 위한 국립국어원 ‘말뭉치 통합 구축 지원 시스템 개발 사업’을 수주했다고 밝혔다.
 
이 사업은 국립국어원 국어 빅데이터 사업의 일환으로 한국어 말뭉치 총 10억 어절 구축(세종 말뭉치 포함)을 지원하는 말뭉치 통합 관리 시스템 개발을 목표로 올해 12월에 완료될 예정이다. NHN다이퀘스트는 해당 시스템을 구축해 국어 빅데이터를 안정적으로 처리할 수 있는 기반을 다질 예정이다.
 
말뭉치는 텍스트를 컴퓨터가 읽을 수 있는 형태로 수집하고 분석해놓은 대규모 언어 빅데이터를 말한다. 어린이가 TV나 책을 보면서 언어를 익혀가는 것처럼 인공지능은 말뭉치가 많을수록 성능이 좋아지고, 사람의 언어를 정확하게 인식할 수 있다.
 
하지만 우리나라는 미국, 중국 등 선진국 대비 1% 미만의 말뭉치를 보유한 상황이다. 이에 작년 12월 소강춘 국립국어원장은 기자 간담회를 통해 “2019년 말까지 10억 어절 규모의 말뭉치를 구축하여 인공지능이 스스로 학습하기 위한 최소한의 자료를 만들겠다”고 강조한 바 있다.
 
‘말뭉치 통합 구축 지원 시스템 개발 사업’을 통해 기존의 2억 어절을 포함해 총 10억 어절 규모의 말뭉치가 구축되면 AI 스피커, 챗봇 등의 인공지능이 한국어를 더 정확하게 인식할 것으로 기대된다.
 
윤철진 시스템 통합 그룹 이사는 “국내 최고의 자연어 처리 기술을 가진 NHN다이퀘스트는 약 9년간 국립국어원의 시스템 구축 사업을 수행해왔다”며 “오랜 시간 축적해온 시스템 구축 경험과 노하우로 대규모 국어 빅데이터의 효율적인 관리를 도모해 사업을 성공적으로 수행할 것”이라고 말했다.



온라인뉴스팀 (on-news@etnews.com)