데이터셋은 인공지능(AI) 시대 필수다. AI 연구를 위해 고품질 데이터가 필요하다. 데이터셋은 AI 머신러닝 등에 활용할 데이터를 분야별 혹은 주제별로 모아놓은 데이터 집합체다. 흩어진 데이터를 하나의 주제에 맞춰 정비하고, 데이터셋으로 구축한다. 기업이나 공공은 이 데이터셋을 활용해 손쉽게 원하는 AI 서비스, 기술 등을 선보인다.
코로나19 사태로 민간에서 데이터셋 개방과 공유가 활발해지면서 데이터셋 관심이 높아진다. 공공이 그동안 개방한 다양한 데이터를 이용해 민간이 데이터셋을 만들고, 이를 외부에 공유하면서 품질 높은 서비스 제공이 가능해졌다. 공공과 민간 협업 모델 새로운 지평을 열었다는 평가를 받는다.
◇공공 데이터셋 개방, 데이터 활용 기반 다져
우리나라는 2013년 '공공데이터 제공 및 이용활성화에 관한 법' 제정과 시행을 기점으로 중앙 정부와 지방자치단체에서 공공데이터 개방을 이끈다. 고수요·고가치·대용량 목적에 맞는 주요 데이터를 선정해 우선 국가 중점개방 데이터로 개방했다. 2018년 기준 행정안전부와 한국정보화진흥원이 운영 관리하는 '공공데이터 포털'에는 2만 5000여개 데이터가 개방됐다.
정부가 공공데이터포털에 개방한 데이터셋은 △파일데이터(3만642건) △오픈API(3338건) △표준데이터(120건) △국가중점데이터 등 다양하다.
특히 국가중점데이터를 활용한 민간 서비스 개발 움직임이 활발하다. 국가중점데이터는 △교통사고정보 △국민건강정보 △실시간수도정보 △수산정보 △기상정보 △일자리종합정보 △의료영상정보 등 분야별로 다양하다. 국민 실생활과 맞닿아 활용도가 높은 정보 위주로 순차 개방 중이다.
최근 정부는 국가중점데이터 개방 계획을 발표하고 4차 산업혁명 시대에 맞는 중점 데이터 개방에 주력할 뜻을 밝혔다. △자율주행 △스마트시티 △헬스케어 △재난안전 등 사회 필요한 AI 서비스 개발에 필요한 데이터셋을 대거 개방한다.
◇코로나19 사태에 빛난 데이터셋
공공이 개방한 데이터셋은 코로나19 사태에 가능성을 입증했다. 민간 곳곳에서 코로나19 확산 대응을 위해 데이터셋을 구축하고 개방, 이를 이용한 서비스 개발을 이끌었다. 이 과정에서 공공이 개방한 데이터셋 활용도 활발했다.
김지후 한양대 연구원은 지난달 24일 기계학습 기반의 예측 모델·분석 대회 플랫폼 캐글에 코로나19 데이터셋을 등록했다. 2주 만에 누적 다운로드 5000회를 돌파하는 등 높은 관심을 받았다. 누적 다운로드는 이달 24일 기준 약 2만회에 달한다. 이용자 13만명이 넘는 캐글에서 지난 3일 '가장 인기 있는 데이터'로 선정됐다.
김 연구원은 질병관리본부에서 나오는 공식 자료에 확진자 동선에 따른 위도·경도 등 지리 정보를 추가해 데이터셋을 구성했다. 주 활동 지역, 특정 집단 관련, 감염 경로, 감염 차수, 방문 장소 등 세분화한 정보를 포함한다. 단순 확진자·사망자 중심인 미국 존스홉킨스대 데이터셋보다 정밀하다. 세계 데이터 과학자와 공유하기 위해 영문화한다.
마인즈랩은 코로나19 동선 추적 데이터셋을 내놨다. 시각화에 특화한 데이터셋이다. 소셜 코딩 플랫폼 깃허브에 이달 12일 오픈소스로 공개했다.
마인즈랩은 AI 데이터 라벨링 서비스를 제공하는 AI 전문업체다. 음성, 시각, 언어 등 데이터를 수집해 AI 학습을 위한 데이터셋을 빠르게 구축할 수 있도록 지원한다.
코로나19 사태 속 마인즈랩이 공개한 데이터셋은 확진자 경로, 연령, 성별, 진단 날짜 등 확진자에 대한 기초 데이터를 제공한다. 22가지 감염병, 16개 백신, 의료 시설을 포함한 의료 통계 데이터를 포함한다. 다양한 변수에 따라 시각화한다. 데이터 양과 품질, 시각화 측면에서 차별화했다. 미국 커뮤니티 사이트 레딧 개발·딥러닝 부문 1위에 오르기도 했다.
한국공간정보통신과 가온아이, 와이즈넛, 이스트소프트 등 소프트웨어(SW) 업체도 힘을 합해 코로나19 종합상황지도를 만들었다. 한국공간정보통신이 구축을 시작한 후 이용자가 증가하면서 다른 업체들이 합류했다.
국토지리정보원, 한국지역정보개발원, 질병관리본부, 지자체 등에서 데이터를 제공받아 코로나19 확진자 실시간 이동경로 분석지도로 구축했다. 확진자 동선뿐만 아니라 선별 진료소, 학교, 신천지 시설과 AI 챗봇 등 코로나19 관련 정보를 제공한다. 이달 9일 조회수 1억회를 넘겼다. 동덕여대 재학생 등 많은 사람이 지도 업데이트와 입력 방식 개선, 디자인 등에 자발적으로 참여한다.
코로나19 종합상황지도는 한국공간정보통신이 개발하는 지리정보시스템(GIS) 엔진 인트라맵을 바탕으로 만들어졌다. 가온아이는 클라우드 서버 기술을 제공하고 이스트소프트는 검색 상단에 지도를 배치해 이용자 편의를 높였다. 와이즈넛은 AI 챗봇을 통해 코로나19 정보를 종합 제공한다. 한국국토정보공사가 클라우드 이용료를 일부 부담한다. EBS는 이 지도를 EBS 홈페이지를 통해 안내한다.
공공 관계자는 “이번 민간 데이터셋 개방·공유 사례는 그동안 공공 위주로 데이터셋 개방 개념을 뛰어넘어 민간에서도 공공 데이터 등을 활용해 데이터셋을 선보이는 모습을 보여준 사례”라면서 “이번 경험이 향후 AI 발전에 중요한 데이터셋을 민간과 공공이 함께 선도 모델을 만들고 확산하는 계기를 만들 것이라 기대한다”고 말했다.
김지선기자 river@etnews.com, 오다인기자 ohdain@etnews.com
-
김지선 기자기사 더보기