`빅데이터를 도입하면 유럽연합(EU)은 연간 1500억유로 이상, 한국은 10조7000억원 이상 정부 지출을 줄일 수 있다.`(매킨지)
`모든 미국 연방정부 기관은 빅데이터 전략이 필요하다.`(미국 대통령 과학기술자문위)
`위험분석&지역스캐닝(RAHS)시스템으로 테러·전염병·금융위기 등 국가 위험 정보를 수집해 선제 대응한다.`(싱가포르 정부)
빅데이터가 초미의 관심사로 떠오르고 있다. 산업계 일부에서 거론되던 막연한 가능성과 필요성에서 이제는 하나의 비즈니스와 산업으로 자리를 잡아가는 모습이다. 주목되는 것은 정부 움직임이다. 이명박 대통령은 지난해 말 국가정보화전략위원회 회의에서 “빅데이터라는 화두를 던졌는데 이를 실천하는 것이 필요하다”며 “그래야 다른 나라에 앞설 수 있다”고 촉구했다. 정부가 산업 활성화에 적극 나서라는 주문이다.
과거 산업 발전 동향을 보면 정부 움직임이 막대한 영향을 줬다. 이 때문에 올해 빅데이터 시장이 크게 개화할 것이란 분석이다. 빅데이터는 대용량 데이터를 분석해 가치 있는 정보를 추출하고 이 지식을 바탕으로 위기에 대응하거나 변화를 예측하는 정보기술(IT)이다.
◇왜 빅데이터인가=IT가 모든 산업에 보편화하고 여기에 데이터를 대거 생산하는 스마트폰·스마트패드 등 스마트기기가 등장했기 때문이다.
빅데이터가 의미를 지니기 위해서는 데이터 양이 넘쳐나야 한다. 이들 데이터에서 하나의 트렌드·패턴을 찾아야 하기 때문이다. 데이터를 분석해 `돈`되는 가치와 정보를 창출하는 것이다.
최근 데이터 양 증가 추이는 놀라울 정도다. 1990년대 말 PC시대 전 세계 데이터 규모는 100엑사바이트(EX·기가바이트의 10억배) 수준이었다. 이후 브로드밴드 보급, 웹2.0시대, 소셜네트워크서비스(SNS) 등장 여파로 데이터는 급증했다. 지난해 기준으로 데이터 양은 1.8제타바이트(ZB·테라바이트의 10억배)에 달한다.
데이터 증가 사례로 트위터를 보자. 지난해 트위터 월간 이용자는 1억여명이며 이들은 하루 평균 2억개 트윗을 생산했다. 트위터라는 SNS가 등장한 이후 얼마나 많은 데이터가 새롭게 창출됐는지 짐작할 수 있는 대목이다. SNS 등 신규 서비스가 지속적으로 등장할 것을 감안하면 2020년에는 데이터 양이 현재의 50배에 달할 것이란 예상이다. 이 때문에 데이터를 어떻게 활용하는지가 관심사며 심지어 IT 주도권이 인프라·기술·소프트웨어(SW)에서 데이터 활용으로 이동할 것이라는 전망도 나온다.
빅데이터 시대 특징으로 가트너는 △규모의 증가 △다양성 증가 △복잡성 증가 △속도 증가 네 가지를 들었다. 로그기록·소셜·위치·소비·현실데이터 등 데이터 종류가 다양화되고 텍스트 이외에 멀티미디어 등 비정형화된 데이터 유형이 지속적으로 늘어난다. 구조화되지 않은 데이터, 데이터 저장방식 차이, 중복성 등은 혼란 요인도 된다. 스마트기기 등장에 따른 실시간성으로 데이터 생성과 유통 속도가 빨라진다. 대규모 데이터 처리 및 가치 있는 정보 활용에 데이터 처리 및 분석 속도가 중요해질 것이란 분석이다.
김현곤 한국정보화진흥원 국가정보화기획단장은 “빅데이터 정의는 데이터 규모와 기술 측면에서 출발했으나 빅데이터 가치와 활용 효과 측면으로 의미가 확대되고 있다”며 “특정 규모 이상을 빅데이터로 칭하기보다는 원하는 가치를 얻을 수 있는 정도에 의미를 부여해야 한다”고 말했다.
◇빅데이터 시대, 어떤 기술 뜨나=빅데이터로 부가가치를 창출하기 위해서는 대용량 데이터를 처리할 수 있는 능력, 비정형화된 데이터 수집·검색, 데이터 전처리 및 분석기술, 시각화 등이 필요하다.
IDC는 이를 바탕으로 빅테이블, 카산드라, 데이터웨어하우스 및 분석 어플라이언스, 분산시스템, 구글파일시스템, 하둡, H베이스, 맵리듀스, 비관계형 데이터베이스(DB) 등을 주목할 빅데이터 연계 기술로 제시했다. 카산드라는 분산시스템에 방대한 분량의 데이터를 처리할 수 있도록 디자인된 오프소스 DB관리시스템으로 페이스북이 개발했다. 하둡은 분산시스템상에서 대용량 데이터 처리 분석을 지원하는 오픈소스 소프트웨어 프레임워크다. 구글이 개발한 맵리듀스를 오픈소스로 구현했다. H베이스는 구글 `빅테이블`을 참고로 개발한 오픈소스 분산 비관계형DB로 포털업체 야후에서 처음 개발했다. 맵리듀스는 분산시스템상에서 대용량 데이터 세트를 처리하기 위해서 구글이 제안한 소프트웨어 프레임워크며 비관계형DB는 데이터를 테이블에 저장하지 않아도 되는 DB다.
정보시각화(인포그래픽) 기술도 급성장할 것으로 보인다. 데이터 분석 결과를 한눈에 쉽게 알아볼 수 있도록 다양한 그래픽 요소가 활용된다.
보안 기술도 빼 놓을 수 없다. 빅데이터가 사람과 직결되는 데이터를 다루는 만큼 보안사고가 있을 때 막대한 피해가 발생할 수 있다. 손삼수 한국데이터베이스산업협의회장은 “DB는 곧 신뢰로 지난해 금융권에서 나타난 DB보안사고에서 볼 수 있듯이 DB 관리에 문제가 생기면 신뢰에도 치명적”이라며 “빅데이터 시대에 DB는 데이터 보관 장소가 아닌 부가가치 창출 기회로 활용돼야 한다”고 강조했다.
국내외에서 두각을 나타내는 기업도 늘어난다. 손삼수 회장이 대표로 있는 웨어밸리는 일본 DB보안 시장에서 지난해 기준 시장 점유율 42%로 1위를 달리고 있다. 웨어밸리는 일본업체와 오라클·IBM 등 다국적기업과 경쟁에서도 점유율을 높였다. 알티베이스는 중국 인메모리 DBMS 시장 70%가량을 점유한 것으로 파악하고 있다.
◇실생활에 다가오는 빅데이터=한국정보화진흥원은 최근 `빅데이터의 새로운 가능성과 대응 전략` 보고서에서 빅데이터가 컴퓨팅 파워 발달로 실생활에 빠르게 확산될 것으로 분석했다. 빅데이터를 활용해 새로운 기회를 만들고 위험을 해결하는 경제 발전의 엔진 역할을 수행할 것이란 전망이다.
빅데이터가 통찰력을 높여 불확실성을 해소한다. 사회현상·현실세계 데이터를 기반으로 패턴을 분석해 미래를 내다볼 수 있게 된다. 여러 가능성의 시나리오를 시뮬레이션할 수 있어 다각적 상황 통찰력을 제시할 것이란 기대다.
리스크 대응력도 높인다. 환경·소셜·모니터링 정보 패턴 분석으로 위험 징후와 이상 신호를 포착하고 이는 기업뿐만 아니라 국가 경영 투명성 제고 및 낭비요소를 절감할 것으로 예상된다. 기업·국가 경쟁력 향상에도 기여한다. 대규모 데이터 분석으로 상황 인지와 인공 지능 서비스 구현이 가능하고 개인화 및 지능화 서비스 제공도 가능하다.
데이터 융합으로 새로운 가치도 창출한다. 의료, 자동차, 건물, 환경 등 다양한 분야 데이터를 결합하면 새로운 정보와 비즈니스를 만들 것이다. 일례로 구글 독감 트렌드 서비스가 있다. 독감 유행 수준을 파악하는 것으로 인터넷에서 네티즌 행동과 의학 정보가 만난 결과다. 네티즌이 독감에 걸리면 나타나는 증상의 검색어를 얼마나 자주 검색하는지를 파악해 독감 확산을 예측한다. 이 예측치는 미국질병통제예방센터 공표보다 7~10일 앞서 독감 유행을 탐지한 것으로 알려진다.
정보화진흥원은 보고서에서 빅데이터 시대 준비 과제로 △데이터 경제시대에 대비하는 `연결과 협력` △핵심 역량을 높이기 위한 `창의적 인력` 양성 △데이터 신뢰환경 구축을 꼽았다. 데이터가 무한한 자원이 될 수 있으나 활용 가능한 영역은 상호 연결과 협력으로 확장될 수 있다는 것이다. 플랫폼·오픈소스·초고속컴퓨팅파워 영향력이 커지며 상호연결과 협력이 핵심전략으로 부각할 것으로 보았다.
김현곤 단장은 “구조화되지 않은 대규모 데이터 속에서 숨겨진 패턴을 찾아내는 데이터 사이언티스트가 스마트 시대 최고의 인재가 될 것”이라며 “데이터 사이언티스트는 통계학, 경제학, IT, 수학 등의 이해가 필요하며 학문적인 지식 이외에 통합적 사고와 직관력이 요구된다”고 말했다.
김준배기자 joon@etnews.com