인공지능(AI)은 홀로 설 수 없다. 데이터의 뒷받침 과정이 있어야 AI가 제대로 기능할 수 있다. 데이터는 고성능 AI를 구현하는 것, AI를 활용하는 것에 꼭 필요한 핵심 인프라다. 이 때문에 정부도 데이터 구축을 한국판 뉴딜 정책, 디지털 뉴딜 구현을 위한 중요 사항으로 인식하고 있다.
한국과학기술정보연구원(KISTI·원장 최희윤)은 우리나라의 정보, 즉 데이터 분야를 대표하는 연구기관이다. 우리나라 전역의 AI 연구가 원활하게 진행되도록 핵심 조력자 역할을 한다.
데이터 분야의 가장 관건은 가용 자원을 많이 확보하는 것이다. 일례로 과학문서 기계학습 모델인 'SciBERT'는 약 114만 건에 달하는 논문 본문을 학습에 사용한 것으로 알려져 있다.
특히 우리나라의 공공이나 일반분야 기계학습 데이터는 상대적으로 많지만 과학기술 분야 데이터는 턱없이 부족한 상황이다. 가용 데이터 확보가 더욱 중요한 상황이다.
이 때문에 KISTI는 현재 특허정보나 논문, 보고서와 같은 '과학기술정보', 연구 과정에서 생산되는 연구데이터를 활용가능하게 하는데 힘쓰고 있다. 국가과학기술데이터본부를 필두로 AI 개발 및 활용에 필요한 기계학습(Machine Learning) 데이터와 연구데이터 구축·관리·공유에 적극 나서고 있다.
핵심이 되는 사업이 '과학기술 기계학습 데이터 구축' 사업이다. 그동안 국가 연구개발(R&D) 사업을 비롯한 각종 연구과정에서 수없이 많은 과학기술정보, 연구데이터가 생산됐다. 그러나 이들을 AI에 활용할 수 있도록 '정제'하는 작업은 이뤄지지 않았다.
이 때문에 AI 관련 프로젝트 전체 소요시간의 80% 가량이 데이터 전처리 작업에 소요되는 것이 현실이다.
KISTI는 과학기술 기계학습 데이터 구축 사업으로 다양한 과학기술 정보를 AI 연구에 활용하도록 정제·구축한다.
과학기술분야 국내 학술논문 전문(Full Text) PDF 파일을 기계학습에 활용할 수 있도록 텍스트 형태로 구축하고, 국가 연구개발(R&D) 연구보고서 내 표와 그림 설명을 문서화 한다. 또 국내 학술논문기관의 저자 소속기관명 식별 데이터, 논문 초록 질의응답 쌍을 구현한다. 논문 연구목적, 연구방법, 연구결과 등 문장 의미를 태깅하는 작업도 진행한다.
이렇게 구축하는 5종 과학기술 기계학습 데이터는 총 425만7000건에 달한다. 소요예산은 인건비 258억원을 포함, 총 296억원이다.
이미 상당 부분 작업이 진척돼 있는 상태다. 올 연말까지 구축 사업을 진행하는데, 이를 마무리하면 사회 다양한 분야에서 수혜를 받을 전망이다.
대표적으로 연구 분야에서는 구축 데이터를 기계학습 원천 데이터로 활용, AI 정확도를 비롯한 기술성능 향상 효과를 보게 된다.
과학기술 지식자원을 연계하고 융합하는 것에도 큰 도움이 된다. 연구에 앞서 사례 분석, 연구 방법론, 연구 트렌드 등 선행조사에 들어가는 시간을 대폭 줄일 수도 있다.
산업 분야에서도 중소기업 기술혁신에 기반이 된다. 기업의 신사업 아이템 발굴이나 시뮬레이션에 활용할 수 있다. 직접적으로 각종 AI를 구현하는 밑거름으로도 활용할 수 있다. 정책 분야에서도 국가 정책을 수립하는 의사결정시 판단의 기준을 확보하게 된다.
물론 단순히 데이터를 구축하는 것만으로는 부족하다. 관련 생태계를 구축하고, 활용 제고도 필요하다. KISTI는 이를 위한 협력 인프라 구축에도 나서고 있다. 과학기술지식인프라 '사이언스온(ScienceON)'과 연구데이터 플랫폼 '데이터 온' 서비스도 개시했다. 국가과학기술 지식정보서비스 'NTIS', 국가 오픈액세스 플랫폼 'KOAR' 등도 역할을 한다.
김재수 KISTI 국가과학기술데이터본부장은 “데이터 구축 사업이 마무리되면 우리는 400만건이 넘는 기계학습 데이터를 보유하고 향후 AI 개발이나 학습, 고도화에 큰 발판을 마련하게 된다”며 “세계적인 오픈 사이언스 기조에 따라 사회 전역에서 폭넓게 활용하도록 할 계획으로, 우리나라 AI 기술 발전에 핵심 역할을 하게 될 것”이라고 말했다.
<표>KISTI 과학기술 기계학습 데이터 구축 사업을 통한 구축 내용(KISTI 제공)
대전=김영준기자 kyj85@etnews.com