[기고]'바이오 연구 데이터 댐'을 건설하자

김장성 한국생명공학연구원 원장
김장성 한국생명공학연구원 원장

세계적으로 코로나19 확산이 지속되는 가운데 바이러스 퇴치를 위한 백신과 치료제 개발도 임상 1000건을 넘었다. 백신과 치료제 개발에 보통 10여년 소요된다는 점을 고려할 때 전례 없이 빠른 속도다.

이를 가능케 한 배경 가운데 하나는 바이오 연구 데이터 공유다. 올해 1월 11일 중국 푸단대 연구팀이 해독한 코로나19 유전체 데이터를 최초로 온라인에 공개한 이후 공유 유전체 데이터는 가파르게 증가했고, 전 세계 연구자들은 이 정보를 이용해 신속하게 치료제와 백신 개발에 뛰어들고 있다.

이는 연구 데이터 공유로 다양한 사회경제적 문제를 해결하려는 다양한 사례 가운데 하나다.

바이오는 다른 분야와 달리 소수의 수식이나 법칙으로 표현할 수 없는 특징을 갖고 있다. 학계를 중심으로 1970년대부터 각자 연구 데이터를 공유하고, 개인 연구 결과를 비교분석하는 작업을 활발하게 해온 배경이다. 세계적으로 관련 데이터베이스(DB)도 2만여개가 있는 것으로 추정된다.

최근 전장유전체 서열, 복잡한 단백질 구조 분석 등 생명현상을 분석하는 기술이 급속도로 발전하면서 새로운 종류의 데이터도 폭발적으로 증가하고 있다. 그 과정에서 축적한 빅데이터를 인공지능(AI) 기술과 접목하는, 데이터 기반 연구환경 구축이 중요 화두로 떠올랐다.

미국, EU, 일본, 중국 등은 국가 차원에서 다양한 빅데이터 구축사업을 진행하고, 이들 데이터를 체계적으로 수집하고 효율적으로 활용하기 위한 컨트롤타워를 구축해 운영하고 있다.

우리나라는 바이오 분야 정부 연구개발(R&D) 사업에 3조8400억원의 예산을 투입하는 등 규모면에서 크게 성장했고 많은 연구 데이터를 생산하고 있지만, 데이터 공유 수준은 매우 낮은 실정이다.

대부분의 데이터를 사업단이나 연구자가 개별 보관하기 때문에 실수로 분실하거나 삭제할 가능성이 높고 사업종료나 연구자 퇴직 시 소실 우려도 크다.

이런 상황에서 정부가 한국판 뉴딜 종합계획을 통해 100만명의 바이오 빅데이터를 만들어 희귀 난치병 극복과 새로운 부가가치를 창출하겠다고 발표한 것은 큰 의미가 있다.

이제는 레드바이오(건강·의료)뿐 아니라 그린바이오(농업·식량), 화이트바이오(환경·에너지)처럼 다양한 분야에 빅데이터를 활용하고 데이터를 국가 차원에서 체계적으로 모을 수 있는, 이른바 '데이터 댐' 건설이 필요한 시점이다.

댐은 단순히 물을 모으는 것을 넘어 필요한 곳에 효과적으로 활용한다. 때맞춰 과기정통부가 범부처 차원에서 부처·사업·연구자별로 흩어져 있던 바이오 연구데이터를 통합 수집·제공하기 위해 '국가 바이오 데이터 스테이션' 구축을 추진하는 것은 시의적절하고 환영할 만한 일이다.

'사피엔스'의 저자 유발 하라리는 '데이터를 가진 자가 미래를 차지한다'고 주장했다. 데이터를 모을 시스템이 없다는 것은 병력이나 무기가 없이 다가오는 전쟁을 기다리는 것과 다르지 않다.

각자가 가진 데이터를 공유해 공동의 문제를 해결하는 것에서 새로운 경쟁력이 시작된다. 늘 그렇듯 연구자의 적극적인 참여가 성공의 시작점이다.

김장성 한국생명공학연구원 원장 jangskim@kribb.re.kr