NIA, 인공지능 학습용 한국어 데이터 250만개 공개

한국인 감정에 대한 영상 정보와 자연스러운 한국어 발성정보를 담은 인공지능(AI) 데이터가 개방된다.

한국정보화진흥원(NIA·원장 문용식)이 250만개 AI 학습용 데이터를 공개했다. △감정, 상황, 대화내용을 담고 있는 복합 영상 데이터 △자연스러운 한국어 대화 음성 데이터 △한국어 챗봇용 대화·시나리오 데이터 △한국어 기계독해 데이터 등 4종이다.

인공지능 학습용 데이터 구축·현황 및 계획. NIA 제공
인공지능 학습용 데이터 구축·현황 및 계획. NIA 제공

AI 경쟁력은 데이터 확보가 필수다. 대다수 중소·벤처기업과 스타트업은 많은 비용과 시간이 소요되는 데이터 구축에 어려움을 겪었다. AI 데이터 공개로 AI 시장에 진입하려는 신생기업에 도움이 될 전망이다.

NIA는 2017년부터 법률, 특허, 일반상식, 한국형 이미지 등 데이터셋 4종 구축을 시작으로 1월에는 관광, 농업, 헬스케어 등 7종을 개방했다.

올해 말에는 한·영 번역말뭉치, 한국형 사물이미지, 한글 글자체 이미지, 이상행동 영상 등 10종 2500여만건 데이터셋을 공개할 계획이다. 국가 R&D 과제인 지능정보 플래그십 사업 등으로 만들어진 AI 학습용 데이터 다수를 내달 AI허브에 공개한다.

이달 개방된 인공지능(AI) 학습용 데이터와 활용방안. NIA 제공
이달 개방된 인공지능(AI) 학습용 데이터와 활용방안. NIA 제공

지능정보 플래그십은 음성·언어·영상 등 다양한 정보를 복합적으로 학습, 사람과 상호작용하는 대화형 에이전트 기술과 서비스를 개발하는 AI분야 연구개발(R&D) 사업이다.

문용식 NIA 원장은 “AI 제품과 서비스가 활발히 개발·출시되도록 수요에 꼭 맞는 데이터셋을 대량 구축·공개, 국내 AI 산업과 시장 경쟁력을 강화하는 데 역량을 집중하겠다”고 말했다.

데이터는 NIA가 운영하는 AI허브 홈페이지에서 간단한 회원가입 후 누구나 내려받을 수 있다.

박종진기자 truth@etnews.com