와이즈넛, 텍스트 데이터 요약 위한 AI 학습데이터 구축 사업 선정

와이즈넛 요약 텍스트 데이터 과제 구성도. 자료:와이즈넛 제공
와이즈넛 요약 텍스트 데이터 과제 구성도. 자료:와이즈넛 제공

와이즈넛(대표 강용성)은 과학기술정보통신부가 주관하고 한국지능정보사회진흥원(NIA)이 지원하는 2021년 인공지능(AI) 학습용 데이터 구축 사업에서 '요약 텍스트 데이터' 과제 주관기관으로 선정됐다고 9일 밝혔다.

와이즈넛은 유클리드소프트, 딥네츄럴, 포티투마루와 함께 컨소시엄을 구축해 텍스트 요약을 위한 AI 학습데이터 구축 사업을 진행한다. 총 사업비는 42억5000만원 규모다.

연내 완료 예정으로 뉴스, 보도자료, 회의록과 방송 다큐멘터리, 드라마, 예능 방송 등 주요 내용을 간결하게 정리·요약해 양질 학습데이터 확보와 요약 모델 구축을 목표로 한다.

현재 시장에서 볼 수 있는 문서 요약서비스는 본문에서 중요한 내용을 그대로 가져오는 추출요약기술을 적용한 부분이 대부분이다. 과제에서는 추출 요약을 포함해 원문에서 중요한 문장을 하나의 새로운 요약문으로 만드는 생성 요약을 위한 데이터셋을 구축하고 실제 모델을 구축한다.

와이즈넛은 20여년간 자연어 이해와 처리 기술을 자체 개발하며 보유해 온 한국어 기반 BART, T5 등 트랜스포머 기반 최신 사전학습 언어모델을 토대로 요약 모델을 개발할 예정이다. 저작권 이슈로 활용할 수 없었던 방송 대본과 뉴스 데이터를 확보해 양질 학습데이터로 가공하고, 이를 기반으로 요약 모델을 구축한다.

최종 구축된 학습데이터와 요약 모델은 모두 AI 허브를 통해 공개한다. 관련 분야 전문가와 일반인 누구나 활용 가능하다.

강용성 와이즈넛 대표는 “요약 텍스트 데이터 기술을 통해 양질 학습데이터를 확보하고, 이를 공공 기술과 데이터로 개방하는 과정에서 AI 요약 기술 분야 생태계를 조성하는 마중물이 될 것으로 기대한다”면서 “AI 학습용 데이터 마련을 통해 빅데이터 산업 활성화에 기여하도록 지속 노력하겠다”고 말했다.

김지선기자 river@etnews.com