영화 ‘머니볼’은 메이저리그 야구선수 빅데이터를 분석해 리그 최약체였던 오클랜드 애슬레틱스를 강팀으로 이끈 빌리 빈 단장 실화를 다룬 영화다.
실력도 없고, 돈도 없는 만년 최하위 구단을 확 바꾸고 싶어 하는 빌리 빈 단장은 경제학을 전공한 ‘피터’를 영입하면서 기존 선수 선발방식과 전혀 다른 과학적인 데이터를 기반으로 한 ‘머니볼’ 이론을 적용한다. 이 이론은 선수선발에서 출루율과 장타율에 초점을 두고 타자를 선발하고, 자책점과 이닝당 출루허용률을 중시해 투수를 선발한다.
야구선수 개인의 다양한 빅데이터를 활용해 타자에게는 높은 출루율, 투수에게는 출루허용률이 낮은 선수 위주로 팀을 운영해 만년 꼴찌를 20연승에 이어 우승으로 이끈 사례다. 대표적인 빅데이터 활용 예다.
빅데이터는 다양한 대량 데이터를 분석해 신속하고 의미 있는 가치를 만들어내는 것이다. 어떤 면에서 보면 빅데이터 활용은 현대인 생활을 맞춤 형태로 무엇인가 제공하고, 제품개발 등을 예측하는 데 사용된다고 볼 수 있다. 맞춤과 예측을 위해서는 기존 정적이고 정형화된 데이터에서 사회 관계망 서비스(SNS)와 같이 생산된 동적인 데이터까지도 포함된다고 할 수 있다.
세계적으로도 유례가 드문 우리나라 국민건강보험 제도와 관리체계는 건강검진에 따른 엄청난 건강 관련 빅데이터가 생산돼 관리되고 있다. 국민건강보험공단에서 관리하고 있는 건강보험 빅데이터는 크게는 청구자료, 분석용 자료, 서비스 개발 및 공개 자료로 활용되지만, 국민에게 직접 서비스하고 있는 모델로 국민건강 주의 알람서비스, 건강질병 예측 및 진단과 같은 개인 맞춤형 건강서비스 등이 있다.
건강과 관련한 의료데이터뿐만 아니라 우리나라에서 생산되는 다양한 과학기술 빅데이터도 이제는 체계적으로 관리해 중복연구로 인한 시간과 경제적 비용을 획기적으로 줄일 수 있는 방안을 마련해야 한다.
미래창조과학부 조사에 따르면 2014년 우리나라 전체 기술수준과 기술격차는 최고국가 대비 78.4%, 4.4년으로 평가했다.
기술격차를 줄일 수 있는 다양한 방법 중 하나로 국가 연구개발(R&D) 결과물인 실험데이터와 같은 연구결과 데이터를 체계적으로 수집, 가공, 편집해 산업 및 연구개발 분야에서 다시 재활용할 수 있도록 해야 한다. 국가가 나서야 할 일이다.
신뢰성과 정확성도 현안이다. 이러한 데이터를 확보하지 못하면 엉뚱한 결과가 나올 수 있다.
사례 하나를 보자. 국가참조표준으로 개발한 자동차용 강판의 고속인장 물성은 차량이 충돌했을 때 안전성 확보를 위해 충돌해석용 물성으로 활용되고 있다. 차량 연료절감 및 배기가스 배출을 줄일 수 있도록 차체 경량화 설계용도로 개발한 데이터다. 신차를 개발하기 위해서는 최소 수십 번 실제 충돌실험이 필요하다. 한번 충돌실험을 할 때마다 2억원 정도 비용이 든다.
그러나 충돌 안정성 확보와 차량 경량화 설계를 위해 개발한 차량 강판용 고속물성 참조표준데이터를 이용해 실제 충돌 이전에 전산 시뮬레이션으로 사전시험을 하게 되면 비용을 몇 십만원 수준으로 줄일 수 있다.
차량 충돌 시뮬레이션에서 가장 중요한 것은 정확한 물성데이터다. 이를 확보해야만 실제 충돌실험에서 얻을 수 있는 데이터와 유사한 결과를 얻을 수 있다.
우리나라 ‘국가참조표준체계’는 산업부 국가기술표준원이 주관하고 있다. 이곳에서 물리화학, 금속재료, 보건의료 등 국가적으로 시급히 필요한 분야 ‘참조표준’ 데이터를 개발해 산업 제품설계 개발, 연구기획 등에 활용하고 있다.
과학기술 분야 빅데이터 활용도를 높이기 위해서는 데이터 생산 단계부터 체계적으로 관리해 신뢰성과 정확도를 갖추어야 한다. 그래야 사용자가 믿고 사용할 수 있을 것이다.
채균식 국가참조표준센터장 cks@kriss.re.kr