[월요논단]K-사이언스와 함께하는 데이터 생태계

최희윤 한국과학기술정보연구원(KISTI) 원장
최희윤 한국과학기술정보연구원(KISTI) 원장

미국국립과학재단(NSF)은 지난 2018년 한 해 동안 전 세계에서 과학기술논문이 255만5959편 출판됐다고 발표했다. 구텐베르크 인쇄술로 시간과 공간을 넘어 정보를 공유하고, 인터넷과 정보기술 발달로 정보의 바다에 이르게 됐다. 왓슨 디스커버리 어드바이저와 같이 급속도로 증가하는 과학기술 분야 논문을 읽고, 요약해 연구 활동을 지원하는 인공지능(AI) 서비스가 생겨나고 있다. 앨런 AI연구소가 개발한 학술논문 AI 검색엔진은 논문 저자, 참고문헌, 첨부된 표와 그림, 주제 등을 분석하고 연계해서 연구자에게 제공한다. AI 기반 서비스는 연구자뿐만 아니라 일반인도 더 쉽게 학술정보에 접근하게 도와주는 등 데이터 활용 격차 줄이기 역할을 하고 있다.

전쟁의 폐허 속에서 과학기술 정보 불모지이던 한국은 지난 1962년 유네스코 지원을 받아 현 한국과학기술정보연구원(KISTI) 전신인 한국과학기술정보센터(KORSTIC)에서 해외 학술정보를 수집·제공하는 것으로 과학기술 정보서비스를 시작했다. KISTI 정보서비스는 정보통신기술(ICT) 발전과 함께 디지털 혁신을 선도했다. 국가과학기술지식서비스(NTIS) 주관 기관이자 논문과 보고서 등 성과물 전담 기관, 대용량 데이터허브센터로 기능했다. 국내외 과학기술 정보, 국가 연구개발(R&D) 과제 정보 및 논문, 연구보고서, 연구데이터 등을 연계·융합해 누구나 지속 활용할 수 있도록 공개·공유하는 것으로 진화했다.

최근에는 국내 최초로 과학기술 분야 핵심 정보를 기계학습용 데이터로 구축하는 등 외연과 깊이를 확장해 가고 있다. 대규모로 구축된 데이터는 연구사례·트렌드 분석, 데이터 연계·융합 분석 등 R&D 전 주기를 지원하는 AI 서비스에 활용돼 학제 간 융합연구 촉매제가 되고, 기술 혁신과 새로운 비즈니스 창출에 기여할 것이다. 국내에서 기계학습용 데이터를 구축하는 것은 많은 시간과 비용이 소요돼 기업 및 일반 개인 연구자들이 AI 연구를 하는데 어려움이 많았다.

KISTI는 그동안 구축해 온 과학기술 분야 논문과 국가 R&D보고서를 기계학습 데이터로 구축, 과학기술 분야 학술 콘텐츠 확장에서 한 단계 더 나아가고 있다. 데이터 구축 과정 핵심인 품질관리 지속, 세계 수준의 슈퍼컴퓨팅 등 KISTI가 구축한 디지털 협업 인프라를 통해 데이터 진입장벽과 활용 격차 해소는 물론 학술·교육 영역을 비롯한 다양한 분야에서 AI 기반 혁신 서비스 및 일자리 창출이 가능할 것이다.

토머스 제퍼슨은 “지식을 나누는 것은 촛불을 나누는 것과 같아서 내가 지닌 빛을 약하게 하지 않고 나눔으로써 주변을 밝힌다”고 했다. 초연결 사회에서 국가 문제는 인류 문제로, 세계가 힘을 모아야 하는 일이 됐다. 최근 코로나19 사태 해결을 위해 관련 데이터를 공개하고 누구나 쉽게 접근하고 활용해서 더 빨리 연구 결과를 얻고자 한 사례에서 보듯이 당면한 문제는 서로 연결돼 있다.

세계에서 코로나19 백신 개발 경쟁이 치열한 가운데 일반 시민 대상으로 접종하고 있다는 중국 백신에 대한 관심이 높아졌다. 벌써 2만명이 넘는 사람에게 백신을 접종해서 안전성과 유효성을 확보했다는 중국 측 주장이 있지만 유럽, 미국 등 여러 나라에서는 의혹의 눈길을 보내고 있다. 백신 임상연구 데이터를 중국이 공개하지 않기 때문이다. 소수만 아는 비공개 데이터의 가치가 있는 것이 아니라 공개와 공유를 통해 신뢰할 수 있는 데이터가 더욱 중요한 시대가 됐다.

팬데믹 위기에서 더욱더 신뢰할 수 있고, 안전하며 안심할 수 있는 데이터 구축 공유를 통한 호혜 협력을 해야 한다. 지금 위기를 함께 극복해 나가야만 한다. 과거 정보 수혜국에서 정보 공여국으로, 이제 K-사이언스를 확산하는 국가로 성장하고 있는 우리나라가 디지털 혁신을 통해 세계와 함께 건강하고 지속 가능한 데이터 생태계를 조성해 나가길 기대한다.

최희윤 한국과학기술정보연구원(KISTI) 원장 hychoi@kisti.re.kr