오늘날은 하루에 1616억GB(10의 9승 바이트)가 생성·복사·소비되고 있다. 이렇듯 데이터는 우리의 생활에서 가장 가깝고 중요한 존재가 됐다. 조직에서도 데이터 중요성이 부각되고 있다. 최근에는 데이터를 활용해 새로운 가치를 찾고자 하는 노력이 활발하다. 그러나 아쉽게도 데이터 활용을 위한 노력 대비 그 성과는 미흡하다. 많은 전문가들은 인프라 중심의 활용 추진, 데이터 품질 이슈, 데이터 사이언티스트 역량 이슈 등 다양한 원인을 이야기 하고 있다.
이러한 문제의 원인에 보다 본질적으로 접근하기 위해서는 데이터 분석 업무를 담당하는 데이터 사이언티스트의 문제제기에 귀를 기울일 필요가 있다. 다수의 데이터 사이언티스트에 따르면 유의미한 데이터 분석 결과를 방해하는 원인을 크게 3가지로 들고 있다.
첫 번째는 분석 가능한 데이터가 충분하지 않다는 것이다. 대부분 업무가 정보화돼 있고 데이터 저장을 위해 상당한 비용을 지출하는데도 데이터가 충분하지 않다니 의아할 지도 모른다. 우리가 여기서 주목해야 하는 부분은 '분석 가능한'이라는 부분이다. 데이터는 많은데 분석 가능한 데이터가 없다면 그 이유는 데이터 생성·저장 시 추후 분석을 고려하지 않았기 때문이다.
두 번째는 데이터 전처리를 위해 소요되는 시간적 비중이 과도하다. 이 원인은 앞서 든 첫 번째 원인에서 기인한다. 분석 가능한 데이터가 충분하지 않기 때문에 분석 가능한 데이터로 만들기 위해 전처리에 많은 노력을 기울이고 있기 때문이다.
세 번째는 활용코자 하는 데이터 소재 정보와 속성 정보가 충분하게 제공되지 않는다. 데이터 사이언티스트는 데이터 분석에 활용코자 하는 데이터의 저장 위치와 데이터의 특성, 구조, 비즈니스적 의미 등의 내용이 포함된 속성 정보가 제공된다면 데이터 분석활동이 보다 효과적일 것이라 말한다.
이들이 말하는 문제를 해결하기 위해 데이터 거버넌스 체계를 도입·운영하는 조직이 늘고 있다. 그럼에도 데이터 분석 활성화 수준이 데이터 거버넌스를 운영하기 이전보다 드라마틱하게 개선되지 못하고 있다. 데이터 거버넌스를 도입하면 데이터 분석 활동이 보다 활성화될 수 있을 것이라 예상했지만 기대에는 미치지 못하고 있다. 과연 데이터 거버넌스는 데이터 분석 활성화를 위한 마중물 역할을 할 수 없는 것인가? 이러한 의문을 해결하기 위해 데이터 거버넌스 본질에 대한 고찰이 필요하다.
우선 거버넌스(Governance)라는 단어가 갖는 사전적 의미를 살펴보자. 존 피에르와 피터스는 “정책 결정에 있어 정부 주도의 통제와 관리에서 벗어나 다양한 이해당사자가 주체적인 행위자로 협의와 합의 과정을 통해 정책을 결정하고 집행해 나가는 사회적 통치 시스템”으로 정의했다. 그렇다면 현재의 데이터 거버넌스는 거버넌스라는 단어가 갖는 의미를 충분히 구현하고 있는가? 아쉽게도 오늘날의 데이터 거버넌스에서는 관리·통제가 우선시되고 있다. 이는 과거의 데이터관리체계의 연장선에서 데이터 거버넌스를 구상했기 때문이다.
그렇다면 데이터 거버넌스를 어떻게 진화시켜야할 것인가? 우선 거버넌스가 갖는 고유한 의미를 상속해 관점을 서비스 및 분석 중심, 사용자 중심으로 전환하는 것이 필요하다. 또한 에자일 방법론 기반의 프로젝트 수행을 참고해야 하며, 최신의 데이터 아키텍처·기술 적용과 운영 내용이 포함돼야 한다. 그리고 체계적 데이터 관리와 데이터 분석 활성화에 관한 조직문화에 대한 내용도 포함하는 것이 바람직하다.
최근에는 이러한 관점이 적용된 데이터 거버넌스를 '모던 데이터 거버넌스(Modern Data Governance)'로 정의하고 있다. 마이크로소프트는 '데이터가 모든 용도에 맞게 최적화돼 조직과 기능에 걸쳐 더 깊은 통찰력을 제공하도록 하는 것', 카트너에서는 '조직의 비즈니스 경쟁력 강화를 위한 강력한 도구'로 정의하고 있다.
물론 모던 데이터 거버넌스 개념을 적용해 데이터 거버넌스를 추진한다고 해서 반드시 목적을 달성한다는 보장은 없다. 그러나 기존의 데이터 거버넌스를 맹목적으로 도입하는 것 대비 성공 가능성은 증가시킬 수 있을 것이다. 정동원 비투엔 거버넌스전략팀 이사 dwjeong@b2en.com