자연어·헬스케어·자율주행 등 인공지능 데이터 170종 개방

8대 분야 170종 인공지능(AI) 학습용 데이터 인포그래픽
8대 분야 170종 인공지능(AI) 학습용 데이터 인포그래픽

정부와 민간이 협력해 자연어·헬스케어·자율주행 등 인공지능(AI) 학습용 데이터 170종을 개방한다. 대기업도 자체 확보하기 어려운 대규모 데이터를 제공, AI·데이터 기반 산업 활성화에 기여한다는 목표다.

과학기술정보통신부는 18일 8대 분야 170종 AI 학습용 데이터를 'AI 허브'에 개방한다고 발표했다. 산업 파급 효과가 크고 민간에서 구축하기 어려운 AI 학습용 데이터를 모아 공개, AI 기술·서비스 고도화에 도움이 될 것으로 전망된다.

과기정통부와 한국지능정보사회진흥원(NIA)은 지난해 구축한 8대 분야 170종 데이터를 이날 60종을 시작으로 6월말까지 순차 개방할 예정이다.

개방 데이터는 △음성·자연어 △비전(영상) △국토환경 △농축수산 △안전 △헬스케어 △자율주행 △기타 등으로 분류된다. 헬스케어 데이터(27종) 등 개인정보·민감정보가 포함될 우려가 있는 데이터 59종은 최종 검증을 거쳐 오는 30일에 개방할 계획이다.

데이터 구축에는 국내 주요 AI·데이터 전문기업은 물론 서울대·KAIST 등 전국 주요 대학 48개, 서울대병원·아산병원 등 25개 병원 등 총 674개 기업·기관이 대거 참여했다.

지역별 방언을 포함한 한국어, 국내 주요 도로와 국내 환자 의료영상 데이터 등 '한국형 AI 학습용 데이터'가 대폭 확충됐다. 그동안 국내 기업은 AI 개발에 해외 오픈데이터를 많이 활용했지만 한국어·도로환경 등 국내 실정을 반영하지 못해 서비스 개발이 어려운 문제에 직면했다.

과기정통부는 앞서 2017~2019년 21종 AI 학습용 데이터를 구축·개방했고 디지털 뉴딜 정책에 따라 지난해부터 '데이터 댐' 구축 프로젝트를 본격화했다. 개방 데이터 이용자와 활용도 확대됐다. 이용자는 2019년 누적 4439명에서 2020년 1만3092명으로 늘어났고 활용도 2019년 1만6177회에서 2020년 4만9085회로 증가했다. 대규모 데이터 개방으로 활용이 활성화될 전망이다.

개방 데이터 활용 강화를 위한 'AI 데이터 활용협의회'가 발족했다. AI 허브 데이터 적극 활용과 성과 공유 확산, 데이터 품질 제고와 개선을 담당한다. 협의회는 데이터 품질관리 전문기관 TTA와 170종 데이터 활용성 검토에 참여한 기업·기관을 중심으로 구성했다.

과기정통부와 NIA는 AI 학습용 데이터 본격 개방에 발맞춰 'AI 허브' 활용 환경을 대폭 개선할 방침이다.

AI 허브에 데이터 개선의견 수렴을 위한 온라인 창구를 운영한다. TTA·한국인터넷진흥원(KISA) 등 전문기관과 협력해 데이터 품질 등 이용자 의견에 신속하게 대응하기 위한 TF도 운영한다.

임혜숙 과기정통부 장관은 “댐의 물이 대지 곳곳으로 스며들어 꽃을 피우듯 공개되는 데이터가 산업 곳곳에서 널리 활용돼 혁신 열매를 맺을 수 있기를 기대한다”며 “정부도 고품질 AI 학습용 데이터를 지속 제공하고, 누구나 데이터를 쉽게 활용하고 성과를 공유할 수 있는 환경을 조성하는 데 지원을 아끼지 않겠다”고 말했다.

박종진기자 truth@etnews.com