韓 대학원생 '코로나 예측 데이터셋' 세계 배포

김지후 한양대 연구원, '캐글'에 등록
확진자 동선·감염 경로 등 AI에 대입
이상치 탐지로 슈퍼전파자 분류 가능

김지후 한양대 대학원 컴퓨터소프트웨어학 연구원이 캐글에 등록한 코로나19 데이터셋. 캐글 캡처
김지후 한양대 대학원 컴퓨터소프트웨어학 연구원이 캐글에 등록한 코로나19 데이터셋. 캐글 캡처

코로나19 확산을 막기 위해 데이터가 활용된다. 데이터를 투입해 인공지능(AI) 기술로 코로나19 확진자와 사망자를 예측한다. 특히 데이터 원재료를 한국 대학원생이 만들어 세계에 배포한다.

기계학습 기반의 예측 모델·분석 대회 플랫폼 '캐글'에는 지난달 24일 '코로나19 데이터셋'이 등록됐다. 한양대 대학원에서 컴퓨터소프트웨어학을 전공하고 있는 김지후 연구원이 만들었다. 김 연구원은 캐글에서 '데이터아티스트'라는 별칭으로 활동하면서 코로나19 데이터셋을 실시간 업데이트하고 있다. 지난 6일 기준 누적 다운로드는 5000회를 돌파했다. AI 모델 개발을 위한 데이터라는 점을 고려할 때 단기간 매우 높은 수치다. 이보다 앞선 3일에는 캐글 내 '가장 인기 있는 데이터' 1위에 올랐다. 캐글 이용자는 세계 13만명이 넘는다.

데이터셋은 AI 모델 개발 등 기계학습에 필요한 데이터 집합이다. 김 연구원이 만든 데이터셋은 질병관리본부에서 나오는 공식 자료에 더해 확진자 동선에 따른 위도·경도 등 지리 정보를 더해 구성된다. 단순 확진자·사망자 중심인 미국 존스홉킨스대 데이터셋보다 정밀하다. 주 활동 지역, 특정 집단 관련, 감염 경로, 감염 차수, 방문 장소 등 세분화한 정보가 포함된다. 흩어진 코로나19 데이터를 일관된 규칙에 따라 구조화한다. 예측 모델을 만들려면 이처럼 통일된 데이터셋이 필요하다.

연구용 데이터셋을 공개하는 등 데이터 연구에 매진해 온 김휘강 고려대 정보보호대학원 교수는 “기계학습은 데이터 바탕으로 모델을 만들고 예측하는 것”이라면서 “AI나 기계학습 기술이 아무리 발전하더라도 데이터 원본이 좋지 않으면 무용지물”이라고 설명했다. AI 발전을 위해선 양질의 데이터를 확보하고 공유하는 문화가 중요한데 이번 데이터셋이 좋은 예라는 것이다.

코로나19 데이터셋 구축은 김 연구원이 코로나19 확산 패턴을 찾으려 한 것이 계기였다. 분석을 위해 정돈된 데이터셋이 없어 직접 만들었다. 질본과 지방자치단체 등에서 나오는 자료를 데이터 분석 용도로 '레이블링'했다. 자동화만으로는 데이터 품질이 떨어져 수작업으로 한다. 처음엔 김 연구원 혼자 하다가 데이터 연구에 관심 있는 동료들을 불러 모아 현재 10명이 작업에 함께 참여하고 있다. 세계 데이터 과학자와 공유하기 위해 영문화 작업을 병행하고 있다.

성과는 나왔다. 김 연구원은 “데이터셋을 만들 때 확진자 수 예측, 격리 해제율 예측 등이 가능할 것으로 봤는데 이를 활용한 코드가 벌써 등록되고 있다”고 소개했다. 코로나19 데이터셋을 활용한 코드는 캐글 페이지 내 '커널' 카테고리에 재공유된다. 코로나19 데이터셋을 투입하면 앞으로 얼마나 많은 확진자가 며칠 동안 발생할지 예측하는 모델을 만들 수 있다. 확진자 나이와 성별, 질병 여부에 따른 회복 및 사망 예측이 가능하다. 확진자 특성에 따라 군집(클러스터링)을 만들거나 이상치 탐지로 슈퍼전파자 등 특이한 확진자를 분류할 수도 있다.

기계학습은 대체로 회귀분석(리그레션)과 분류(클래시피케이션)로 나뉜다. 코로나19 데이터셋을 활용한 지도학습과 비지도학습 코드도 다수 등록되고 있다. 예측 모델뿐만 아니라 시각화한 모델도 나온다. 코로나19 사태 이후에도 다양한 데이터 분석 기법을 활용, 확산 경위와 숨어 있는 사실을 규명할 것으로 기대된다. 역학조사만으로는 밝혀낼 수 없는 사실을 데이터 분석으로 파악할 수 있다.

김 연구원은 “국가별 문화와 체계가 다르지만 이번 데이터셋을 바탕으로 다른 감염병에 적용할 가능성도 충분하다”면서 “코로나19 국면에서 우리나라가 데이터를 잘 구축하고 모델링해 추후 위기 사태에서 활용도가 높아지길 바란다”고 말했다.

오다인기자 ohdain@etnews.com