지하철 안에서 우연히 재미있는 현상을 목격했다. 맞은편에 앉아 있는 사람 7명 모두가 휴대폰으로 무엇인가 열심히 하고 있었다. 지인들과 문자를 주고받거나 정보 검색 혹은 트위터나 페이스북 등을 하고 있었을 것으로 짐작된다. 인터넷과 모바일 기술 발전으로 이제 개인도 자연스럽게 디지털 정보의 생산자가 되고 있는 현실의 한 부분이라는 생각이 들었다.
지난해 세계에서 생성된 디지털 정보량은 1.8제타바이트(ZB) 규모다. 이는 대한민국 국민 전체가 트위터에 18만년 동안 쉬지 않고 1분마다 3개의 글을 올리는 것과 같은 양이라고 한다. 3년 뒤에는 데이터량이 세 배로 늘어난다니 과연 `빅데이터` 시대의 도래라는 말이 실감난다.
과학기술 분야에서도 연구 환경 첨단화로 이전에는 존재하지 않던 데이터가 생산되고 있다. 물리학·화학·생물학·천문학·지구과학 등 과학의 다양한 영역에서 텍스트·이미지·동영상 등 다양한 형태의 데이터가 생산되고 있다. 그러나 이 분야 연구자들은 다양한 형태의 빅데이터를 처리할 수 있는 정보와 기술을 아직 확보하지 못했다. 데이터 전송, 분석 및 통합에 많은 어려움을 겪고 있는 것이 현실이다. 예를 들어 위성사진상 해수면 색상을 분석해 지구 온난화나 황사 등을 예측하는 연구에서 연구원들은 시간당 수십GB 규모의 데이터를 처리하고 필요한 정보를 가공 및 분석해야 한다. 기존 처리 기술과 분석방법으로는 엄청난 시간과 노력이 필요하다.
선진국은 발 빠르게 준비하고 있다. 지난달 29일 미국 정부는 산하 6개 기관이 대용량 디지털 데이터 저장·분석에 2억달러를 투자한다고 발표했다. 세계경제포럼(다보스포럼) 산하 전문가 그룹인 미래기술 글로벌 어젠다 카운슬도 `2012년 세상을 바꿀 10대 신기술` 중 1위로 빅데이터 처리의 핵심기술인 `인포매틱스`를 꼽았다. 정보량이 과도화함에 따라 벌어질 수 있는 사회 문제를 인류가 해결해야 할 가장 시급한 연구과제로 본다는 뜻이다.
우리나라는 IT산업을 중심으로 한 민간 비즈니스 영역에서는 빅데이터 처리에 필요한 연구개발(R&D) 활동이 활발하게 진행되고 있는 반면에 과학기술 영역에서는 실천 계획이나 준비가 미흡하다. 여기에는 기초과학·거대과학 등 공공적 빅데이터 사이언스 영역 연구 활동이 막대한 재원을 투입하고도 연구 성과가 비즈니스와 바로 연결되지 않는다는 점이 자리 잡고 있다.
지난 50년간 우리나라 국가 과학기술 정보인프라를 구축해 온 한국과학기술정보연구원(KISTI)은 일찍부터 빅데이터의 도래와 중요성을 인식했다. KISTI는 데이터 분석·예측 도구를 해당 과학 연구 분야에 맞게 개발하고 최적화하는 등 국가 R&D 분야에서 빅데이터를 효율적으로 활용하기 위해 준비해 왔다. 대용량 데이터를 처리하는 슈퍼컴퓨팅센터·첨단연구망센터와 정보소프트웨어 연구지원을 바탕으로 빅데이터 통합 운용·활용 플랫폼을 개발하고 있다. 각 분야 연구소는 이 플랫폼을 기반으로 연구 분야에서 생성되는 빅데이터를 최적 환경에서 분석하고 활용할 수 있다. 세계 수준의 원천기술을 확보함과 동시에 NT·BT·ET·CT 간 융합 R&D 활동모델을 중심으로 새로운 과학기술 영역을 개척할 수도 있다.
국가적으로 중요하지만 그 성과가 곧바로 가시화하지 않는 공익적 과학 분야에서 정부출연연 간 협업은 필수다. 종합적인 협업 연구 활동이 바로 기초과학·거대과학 등 공공적 빅데이터 사이언스 영역에서 국가 경쟁력을 기르는 큰 힘이 될 것이다.
박영서 한국과학기술정보연구원장 yspak@kisti.re.kr