NHN다이퀘스트(대표 강락근)는 국가 언어 자원의 활용성 확산을 위한 국립국어원 ‘말뭉치 통합 구축 지원 시스템 개발 사업’을 수주했다고 밝혔다.
이 사업은 국립국어원 국어 빅데이터 사업의 일환으로 한국어 말뭉치 총 10억 어절 구축(세종 말뭉치 포함)을 지원하는 말뭉치 통합 관리 시스템 개발을 목표로 올해 12월에 완료될 예정이다. NHN다이퀘스트는 해당 시스템을 구축해 국어 빅데이터를 안정적으로 처리할 수 있는 기반을 다질 예정이다.
말뭉치는 텍스트를 컴퓨터가 읽을 수 있는 형태로 수집하고 분석해놓은 대규모 언어 빅데이터를 말한다. 어린이가 TV나 책을 보면서 언어를 익혀가는 것처럼 인공지능은 말뭉치가 많을수록 성능이 좋아지고, 사람의 언어를 정확하게 인식할 수 있다.
하지만 우리나라는 미국, 중국 등 선진국 대비 1% 미만의 말뭉치를 보유한 상황이다. 이에 작년 12월 소강춘 국립국어원장은 기자 간담회를 통해 “2019년 말까지 10억 어절 규모의 말뭉치를 구축하여 인공지능이 스스로 학습하기 위한 최소한의 자료를 만들겠다”고 강조한 바 있다.
‘말뭉치 통합 구축 지원 시스템 개발 사업’을 통해 기존의 2억 어절을 포함해 총 10억 어절 규모의 말뭉치가 구축되면 AI 스피커, 챗봇 등의 인공지능이 한국어를 더 정확하게 인식할 것으로 기대된다.
윤철진 시스템 통합 그룹 이사는 “국내 최고의 자연어 처리 기술을 가진 NHN다이퀘스트는 약 9년간 국립국어원의 시스템 구축 사업을 수행해왔다”며 “오랜 시간 축적해온 시스템 구축 경험과 노하우로 대규모 국어 빅데이터의 효율적인 관리를 도모해 사업을 성공적으로 수행할 것”이라고 말했다.
온라인뉴스팀 (on-news@etnews.com)