[CIO BIZ+]글로벌리포트/빅데이터 활용 글로벌 10대 선진 사례

빅데이터 활용 요구가 높아지고 있다. 정부도 빅데이터를 국가 정보화에 활용하려는 노력을 강화하고 있다. 아직은 빅데이터 활용 초기 단계인 우리나라로서는 선진사례에 대한 관심이 높다. 최근 한국정보화진흥원은 `빅데이터 글로벌 10대 선진사례`라는 보고서를 발간했다. 이 중 주요 사례를 소개한다.

[CIO BIZ+]글로벌리포트/빅데이터 활용 글로벌 10대 선진 사례

미국은 2010년 기준 탈세금액이 3373억달러로 저소득층 의료보장 총액을 초과했다. 탈세 및 사기로 국가 재정 위기 가능성이 증가하고 있었다. 미국 국세청은 문제 해결 방안으로 대용량 데이터와 다양한 기술을 결합, 탈세 및 사기범죄 예방시스템을 구축했다.

이 시스템은 방대한 자료로부터 이상 징후를 찾아내고 예측 모델링으로 과거 행동 정보를 분석해 사기패턴과 유사한 행동을 검출한다. 소셜네트워크서비스(SNS) 분석으로 범죄 네트워크도 발굴한다. 계좌·주소·전화번호·납세자 간 연관관계를 분석한 다음 페이스북이나 트위터로 범죄자 관련 SNS를 분석해 범죄자 집단에 대해 감시하는 것이다. 국세청은 데이터베이스(DB)와 데이터웨어하우스(DW)를 통합, 대용량 데이터를 효율적으로 활용하고 프로세스로 지능형 데이터 분석능력을 지원하는 시스템도 갖췄다.

이후 연간 3450억달러에 달하는 세금 누락 및 불필요한 세금 환급을 절감했다. 사기범죄 및 탈세 관련 사건도 방지할 수 있었다. 미국 정부는 의료보험 및 복지프로그램 관련사업 등 다양한 정부사업에 응용하는 방안을 검토 중이다.

한국석유공사가 추진한 국내 유가 예보 서비스 최적화도 대표적인 빅데이터 활용 사례다. 지난해 유럽발 재정위기 확대와 세계경기 침체 우려로 국제 유가는 변동 폭이 컸다. 석유공사는 지난해 말 SAS와 협력해 단기 미래 가격을 예측하는 유가예보 시스템을 개발했다. 국내 1300여개 주요소로부터 하루 여섯 차례 휘발유 가격 정보를 수집, 분석했다. 이 결과 소비자는 지역별, 상품별로 다섯가지 변화 예측을 시각화된 자료로 받아 볼 수 있게 됐다. 유가변동에 영향을 주는 다양한 변수를 고려한 국제·국내 유가도 예측했다.

미국 국립보건원은 75개 기업 및 기관과 파트너십을 체결, 1000유전체 프로젝트 일환으로 200테라바이트(TB)의 유전자정보를 확보했다. 1000유전체 프로젝트는 과학 연구를 위해 세계에서 2662명의 유전자 정보를 저장, 질병연구를 위해 1% 이상 빈도를 나타내는 유전자 다양성을 분석하는 사업이다.

국립보건원은 정부의 빅데이터 연구개발 이니셔티브 발표에 따라 1000유전자 프로젝트를 아마존 웹서비스로 이전, 저장했다. 여기에는 북동유럽 출신 조상을 두고 있는 유타주 거주인, 덴버에 사는 중국계, 로스앤젤레스에 사는 멕시코계, 미국 남서부에 사는 아프리카계 등 세계 인구 표준이 데이터로 취합돼 있다. 국립보건원은 유전자정보로 질병에 대한 빠른 진단 서비스를 제공한다. 난치병과 불치병 관련 유전자정보를 공유, 분석해 새로운 치료제도 개발한다.

건강보험회사인 웰포인트는 환자 3420명의 증상·면담결과·진단연구 등 진료 내역에 대한 모든 정보를 저장했다. 8코어 프로세서의 IBM 서버로 모든 상황을 고려한 분석을 실시, 최적의 진단 가이드라인을 제시했다. 2억페이지에 해당되는 자료를 검색, 분석해 3초안에 결과를 제시한다. 웰포인트는 빠르게 변화하는 진단 및 치료방법을 공유, 환자 진료 만족도를 높였다. 불필요한 진료를 줄여 의료보험 회사의 진료비 낭비도 방지했다. 고령층의 효과적인 진료서비스도 가능해졌다.

구글은 홈페이지에서 독감·인플루엔자 등 독감 관련 검색어 쿼리 빈도를 조사, `구글 독감 동향`이라는 독감 확산 조기 경보체계를 마련했다. 구글은 미국 보건 당국보다 한발 앞서 시간 및 지역별 독감 유행정보를 제공한다. 미국 질병통제 예방센터의 데이터와 비교 결과, 검색 빈도 및 실제 독감증세를 보인 환자 수와 매우 밀접한 상관관계가 있다. 이 분석 방법으로 정치·문화·경제·스포츠 등 영역에서 사용자 검색을 기반으로 다양한 정보를 제공할 수 있다.

싱가포르는 불확실한 미래에 대비해 2004년부터 빅데이터 기반 위험관리 계획을 추진하고 있다. 이에 따라 국가위험관리시스템으로 질병, 금융위기 등 국가적 위험을 수집한다. 수집된 정보는 시뮬레이션, 시나리오 기법으로 분석해 사전 위험예측 및 대응방안을 마련한다. 국가 및 국민의 위험요소를 파악, 대비해 국민의 생명과 재산을 보호한다. 수많은 데이터와 변수를 동시에 고려해 전천후 국가 위험 관리체계로 발전시키고 있다.

미국 연방수사국(FBI)은 유전자정보은행인 CODIS(Combined DNA Index System)를 구축했다. CODIS에는 미제 사건 용의자 및 실종자에 대한 DNA 정보 1만3000건을 포함해 12만명의 범죄자 DNA 정보가 저장돼 있다. FBI는 매년 2200만명의 DNA 샘플을 추가해 범죄 수사에 활용하고 있다. CODIS는 50개 모든 주와 연방정부가 수집한 확정판결을 받은 범죄자와 일부 체포자에게서 추출한 DNA 분석표를 구성한다. 내장된 DNA 분석정보를 활용, 2007년 4만5400건의 범인 DNA 적중도를 달성했다. 범죄자 유전자 정보를 DB화해 빠르고 정확한 과학 수사가 가능하다.

샌프란시스코는 과거 8년 동안 범죄가 발생했던 지역과 유형을 세밀하게 분석해 후속 범죄 가능성을 예측하는 범죄 사전 예보체계를 갖췄다. 범죄에 대한 통계정보를 제공하는 것과 달리 새로운 범죄 가능성 정보를 제공한다. 샌프란시스코는 6개월 테스트 결과 예보 정확도가 71%에 달했으며 범죄가 예보된 10곳 중 7곳에서 실제 사건이 발생했다. 이를 기반으로 제한된 경찰인력을 효율적으로 재배치할 수 있게 됐다. 샌프란시스코는 과거 범죄자 및 범죄 유형을 SNS로도 지속적으로 관찰, 관련 조직 및 범죄에 대한 예방 방안을 마련하고 있다.

신혜권기자 hkshin@etnews.com

한국석유공사가 빅데이터 분석으로 제공하는 오피넷 사이트

미국 국립보건원이 진행하는 1000유전자 프로젝트 데이터 검색

미국 국립보건원이 아마존 웹서비스에 저장한 유전자 분석

구글이 검색 쿼리 빈도로 분석한 독감 동향