2017년 정보기술(IT)의 화두는 단연 4차 산업혁명이다. 2016년 1월 세계경제포럼(일명 다보스포럼) 이후 4차 산업혁명에 대한 관심이 폭증하고 있다. 심지어 우리나라 대통령 선거 주자들도 4차 산업혁명 공약을 내놓기 시작했다. 이러한 뜨거운 관심에도 우리나라는 미국, 독일, 일본, 중국에 비하면 기술이 많이 뒤처져 있다.예를 들어 스마트공장 분야는 독일, 로봇 분야는 미국과 일본, 3D 프린팅 기술은 유럽, 인공지능(AI) 기술은 미국이 각각 주도하고 있다. 그러나 이러한 기술들은 4차 산업혁명의 요소 기술이라 할 수 있다. 4차 산업혁명이 본격화되면 요소 기술보다 통합 기술이 더욱 중요해질 것이다. 그리고 4차 산업혁명의 대표 통합 기술은 빅데이터다.
4차 산업혁명의 궁극 목표는 산업별 공급 사슬 관리의 사이버물리시스템(CPS) 구현이다. 단순히 스마트공장을 구축하는 것이 아니라 스마트공장, 스마트유통, 스마트제품, 스마트서비스를 융합하는 것이다. 대표 사례가 제너럴일렉트릭(GE)의 지능형 항공 운영 사례다. GE는 스마트항공기를 생산, 장비 및 부품 정비는 물론 항공 운영상 다양한 프로세스를 개선하고 있다. 또 고객과 협력 업체를 위한 지능화된 스마트 서비스를 준비하고 있다. 궁극으로는 부품업체부터 항공사에 이르는 공급 사슬 관리의 CPS 구현을 목표로 한다.
산업별 공급 사슬 관리의 CPS 구현 핵심 인프라는 공급 사슬 관리 빅데이터 체계다. 사물인터넷(IoT)으로 수집되는 엄청난 데이터를 분석해서 각 사물이 자율로 의사결정을 내리고, 지능화된 각 사물이 생성한 데이터를 다시 통합해 가치 사슬 상에서 지능화된 의사결정을 내릴 수 있어야 한다. 이러한 빅데이터 인프라 구축은 이제 시작이다. 우리나라도 결코 늦지 않았다.
4차 산업혁명의 핵심 인프라인 빅데이터를 위한 다섯 가지 전략을 제시한다. 첫 번째는 데이터 활용 및 분석을 촉진하는 데이터레이크(Data Lake) 구축이다. 데이터 분석 과정에서 데이터를 확보하고 정비해 분석을 준비하는 노력이 전체 프로젝트 노력의 70% 이상에 이른다. 이러한 노력을 줄이기 위해 비구조데이터를 미리 축적해 놓는 기술이 데이터레이크다. 데이터레이크 기술은 IoT와 인공지능(AI) 기술이 발전될수록 중요해질 것이다.
두 번째는 산업·영역별 데이터 분석 프레임워크 도출이다. 현업 사용자가 특정 문제 해결에 적합한 분석 시스템을 기획하고 분석 알고리즘을 적용, 결과를 활용해 소기의 성과를 기대하기는 어려운 현실이다. 산업·영역별 데이터 분석 프레임워크는 수리 모형이나 통계 분석에 특화된, 교육을 받지 못한 현업 사용자에게 적은 노력으로 빅데이터 혜택을 보게 한다.
IBM 왓슨연구소는 제조 산업을 위한 데이터분석시스템라이브러리(SROM)를 제공하고 있으며, 앞으로 모든 산업으로 확장할 계획이다.
세 번째는 산업별 데이터 생태계 도출이다. 지금까지 각 기업은 기업 내 데이터만 수집해서 분석했기 때문에 실제 활용 가치에는 한계가 있었다. 기업 간 데이터를 연계하고 융합해 분석하면 데이터 가치는 기하급수로 증가할 것이다. 산업별 데이터 생태계를 활용, 새로운 관점의 융합 서비스를 제공할 수 있다. 앞에서 언급한 GE 사례도 항공 산업의 데이터 생태계 도출 사례다.
네 번째는 산업별 데이터 생태계 관리를 위한 기준데이터관리(MDM)다. 데이터 생태계 규모가 커질수록 MDM는 중요해질 것이다. 데이터의 폭과 깊이가 넓고 깊어지면 모든 데이터를 관리할 수가 없다. 결국 핵심 데이터를 중심으로 관리해야 한다. 산업별 기준 데이터 구성 요소를 확인하고 관리 범위를 서서히 확장할 필요가 있다. 한 가지 주목할 점은 데이터 생태계의 융합 데이터는 마스터데이터를 중심으로 요약해서 제공된다는 점이다. 대표 사례는 미국의 의료 정보 사용자를 위한 블루버튼 서비스다.
다섯 번째는 데이터집합자(Data Aggregator)를 적극 양성하는 것이다. 여러 기업·기관 또는 다른 종류의 데이터베이스(DB) 정보를 함께 분석하면 분석의 깊이를 더할 수 있다. 기관·기업의 상충되는 이해관계를 해소하기 위해 데이터를 수집, 축적, 분석하는 제3의 조직이 필요할 수 있다. 앞으로 데이터 생태계가 발전하는 데 데이터 집합자의 역할은 매우 중요하다. 대표 사례가 영국의 공공 의료 데이터 집합자인 HSCIC다. 환자가 자신의 정보 제공을 반대하지 않는 한 관련된 모든 데이터는 HSCIC로 업로드되는 것이 원칙이다. 이렇게 수집된 데이터는 환자 개인에게 맞춤화된 데이터를 보여줄 수 있고, 연구 기관에는 깊이 있는 연구를 가능하게 한다. 주목할 점은 데이터 집합자가 데이터 개인화 역할뿐만 아니라 데이터 비식별화 역할도 수행한다.
요약하면 4차 산업혁명이 진행되면서 빅데이터 시대를 넘어 비거데이터 시대가 올 것이다. 우리나라가 비거데이터 시대를 미리 준비한다면 결국 4차 산업혁명을 주도할 수 있을 것이다.
박주석 경희대 교수 jspark@khu.ac.kr