[든든한 데이터댐! 데이터 활용으로 사회현안 분석하다] ③데이터를 '석탄'에서 '다이아몬드'로

과학기술정보통신부와 한국지능정보사회진흥원은 디지털 뉴딜을 통해 다양한 데이터의 수집과 개방, 유통과 활용을 지원하는 16개 분야 빅데이터 플랫폼을 구축하였다. 데이터 이용자가 다양한 플랫폼의 데이터를 쉽게 검색하고 활용할 수 있는 관문인 '통합 데이터 지도'가 운영되고 있다.

사진=게티이미지뱅크
사진=게티이미지뱅크

최근 공공기관 및 기업은 데이터에 대한 중요성을 인식하고 데이터 활용을 확대하고 있다. 정부의 '데이터 댐' 구축도 이러한 배경하에 추진된 디지털 뉴딜의 일환이다. 저자는 데이터 댐 구축 이후 우리는 무엇을 준비해야 하는지에 대해서 생각해 보고자 한다.

현재 금융 빅데이터 플랫폼 참여기업인 바이브컴퍼니(구 다음소프트)는 2000년부터 빅데이터를 수집하고 분석해 인사이트를 도출해내는 국내 최초 소셜 빅데이터 전문기업으로 2010년대 초반 블로그, 트위터, 커뮤니티 등의 소셜데이터를 수집하고 분석하여 사람들의 생각을 분석하는 오피니언 마이닝 사업을 주도하고 있다. 현재까지 300억 건 이상의 데이터를 축적하여 보유하고 있으며, 정부정책, 마케팅 등 다양한 분야의 인사이트 보고서에 활용되고 있다.

오피니언 마이닝 사업 초기에 고객들은 소셜 데이터 상의 이용자 반응을 통합적으로 파악하는 것에 만족했다. 그러나 어느 순간부터 발굴한 인사이트를 바탕으로 어떠한 행동(Action)을 해야할지에 대한 방안도 함께 요구하기 시작하였다. 데이터베이스(DB)의 발달로 단순 저장된 데이터는 정보 또는 지식으로 가치가 증대되어 기업의 중요한 의사결정에 활용하게 되었다.

또한 빅데이터 플랫폼과 인공지능의 발달로 수년 또는 수십 년간 축적된 데이터를 분석하여 경험과 지혜를 얻을 수 있게 되었다. 데이터 자체에는 변화가 없었지만, 데이터를 둘러싼 주변의 환경이 변화하고 있다. 즉, 정부정책과 기업의 마케팅 전략도 데이터에 기반하여 제공해야하는 시대가 되었다.

◇DIKW 피라미드 4단계

사진=게티이미지뱅크
사진=게티이미지뱅크

문헌 정보관리, 정보 시스템, 지식 관리 영역에서 흔히 인용되는 DIKW 피라미드(Data, Information, Knowledge, Wisdom)에 따라 데이터의 진화 단계를 4단계로 정의할 수 있다.

1단계, Data(데이터, 원천 데이터)는 가공되지 않은 데이터로 단순히 쌓아놓은 또는 모아놓은 데이터, 즉, 웹 서버의 접속 로그 데이터, POS 기기의 판매 기록, SNS에 올린 글이 이에 해당한다. 웹 서버의 정상 동작, 판매 기록의 이상 유무 점검 등의 문제가 발생하는 경우에 검증을 위한 자료로 이용한다.

2단계, Information(정보, 정제된 데이터)은 원천 데이터를 가공하여 활용할 수 있는 상태의 데이터이다. 미리 지정된 형식으로 데이터베이스에 적재되며, 빅데이터에서는 정형데이터라고 부르기도 한다. 데이터베이스에 저장된 데이터를 잘 다루기 위한 시스템 구축이 목표이다.

3단계, Knowledge(지식, 정보가 축적된 데이터)는 축적된 정보로부터 지식을 얻는 단계로 인공지능 등의 기술을 이용하여 자동화하여 지식을 얻는 방법, 사람이 본인의 경험과 지식을 결합하여 새로운 지식을 얻는 방법 두 가지로 분류된다. 데이터베이스 기반 시스템에서는 OLAP(온라인 분석 처리)이라는 의사결정 지원 도구를 제공하여 사람(의사결정권자)이 데이터를 보면서 본인의 경험을 토대로 사업 방향이나 마케팅에 대한 미래 상황을 예측하여 의사결정을 할 수 있다. 앞서 기술한 3단계까지는 시스템적으로 제공 가능한 데이터로 볼 수 있다. 그간 공공기관이나 민간기업들은 데이터를 수집하고 저장하는 데에 주력을 다했다.

그러나 4단계인 Wisdom(지혜, 지식에 기반한 행동 데이터)는 데이터 수집·분석에서 끝나는 것이 아니라 데이터를 기반으로 마케팅 전략을 도출해야 하는 인공지혜 수준으로의 도약이 필요하다. 특히 데이터를 분석하여 실행 가능한 인사이트를 발굴하는 부분에서는 더욱 그럴 것이다. 현재의 인공지능이 지식의 축적과 아이디어가 결합된 창의적 산물을 도출할 수 있는 인공지혜 수준으로 진화해야 하기 위해서는 사람의 역할이 필수적이다.

◇전문 인력을 활용한 '인공 지혜'로 도약

사진=게티이미지뱅크
사진=게티이미지뱅크

예를들면, 유유제약의 경우 ‘멍’연고를 개발하여 출시하는 시점에 경쟁 제품에 대한 마케팅 인사이트 보고서를 바이브 컴퍼니에 요청하였다. ‘멍’과 관련된 분석 결과 ‘멍’연고의 경쟁 제품은 제약회사의 제품이 아닌 ‘소고기’, ‘감자’등 민간요법에 쓰이는 재료들이었다. 소셜데이터 분석을 통해 ‘멍’에 대한 사람들의 생각을 분석하여 마케팅 인사이트 보고서를 제공하였고, 이는 마케팅 전략에 활용되어 큰 성공을 거둔 사례로 나타났다. 이렇듯 현상에 기반한 행동 방향을 정하는 것은 사람의 역할이고 이는 많은 지식과 경험을 보유하고 있는 사람만이 할 수 있는 일이라 생각된다.

이를 위해서는 데이터를 분석하고 활용할 수 있는 전문 인력들이 필요한 상황이다. 우선 데이터 전문가가 필요하다. 데이터에 대한 이해를 바탕으로 데이터생명주기관리(DLM, Data Lifecycle Management)를 수행하는 임무를 수행한다. 데이터가 생성되는 시점부터 소멸까지의 단계, 즉 생성, 수집, 저장, 관리, 분석, 보관, 파기 일련의 과정을 포함한 통합관리 능력이 요구된다.

다음으로는 데이터 (전)처리 전문가가 필요하다. 이들은 데이터를 활용할 수 있는 형태로 변환하는 작업을 수행한다. 정형데이터에 대한 처리는 데이터베이스에 대한 이해만 있으면 가능하지만, 이미지‧영상‧텍스트 등의 비정형 데이터는 각 데이터에 대한 이해뿐만 아니라 처리할 수 있는 개발 능력도 필요하다. 특히, 고객의 요청을 받아 데이터 분석가가 원하는 형태로 데이터를 가공할 수 있는 능력이 필요하다.

◇도구를 활용한 데이터 분석가의 '가치 추출'

사진=게티이미지뱅크
사진=게티이미지뱅크

마지막으로 데이터 분석가가 필요하다. 데이터 분석가는 통계분석, AI 분석 등의 도구를 활용하여 데이터로부터 가치를 추출하는 임무를 수행한다. 데이터를 분석하기 위해서는 한 분야의 전문가이던지 다양한 분야를 융합하여 분석할 수 있는 역량을 갖춘 전문가여야 한다. 그러나 실제로 고객 목표에 기반하여 전문적인 지식을 갖춘 데이터 분석 인력들은 쉽게 찾아보기 힘들다.

데이터는 갈고 닦을수록 빛을 발휘하고 그 가치가 증대된다. 석탄과 다이아몬드는 탄소로 구성된 물질이지만 주변의 환경에 따라 전혀 다른 물질이 된다. 데이터도 마찬가지이다. 데이터를 단순히 축적하여 쌓아놓기만 한다면 데이터는 석탄화 될 수밖에 없다. 그러나 쌓아놓은 데이터로부터 정보를 획득하고, 지식화하여 지혜를 얻을 수 있다면 이는 석탄이 아닌 다이아몬드로서의 가치를 발휘할 것이다.

‘데이터 댐’사업이 석탄이 아닌 다이아몬드를 캐는 사업으로 더욱 발전하기 위해서는 데이터 전문 인력 양성에 적극 투자해야 한다. 특히, 업무 노하우를 보유한 인력들의 데이터 분석가로의 전환 교육은 필수적인 요소일 것이다.

박의규 바이브컴퍼니 디티에스부문 이사 ekpark@vaiv.kr