[기고]불량 데이터의 '숨은 비용'

[기고]불량 데이터의 '숨은 비용'

디지털 경제 시대에 데이터는 중요한 자산이다. 디지털 리얼티에 따르면 데이터는 G7 국가에 1조7000억달러(약 2000조원) 이상의 가치가 있다. 경제 규모로 환산하면 세계 10위다.

기업은 의사결정에 필요한 데이터를 수집하고 비즈니스를 최적화하고자 한다. 그 과정에서 고품질 데이터는 큰 도움이 되지만 불량 데이터는 연구를 더디게 한다. 효율을 떨어뜨리고 경쟁력을 약화시켜 혁신을 저해하는 요인으로 작용한다.

불량 데이터란 부정확하거나 불완전한 데이터를 말한다. 연관성이 없거나 소재가 불분명하고 오래된 데이터다. 시간을 낭비하게 하며, 경영진은 잘못된 수치를 근거로 의사결정을 내리게 된다.

그동안 많은 기업이 데이터의 정확성 문제를 겪어 왔다. 어떤 산업과 조직도 데이터 오류로 인한 문제에서 자유롭지 못하다. 신속하게 해결책을 모색하지 않을 경우 심각한 경제 손실을 입거나 명성에 타격을 받을 수 있다. 아마존, 구글, 에어비앤비 등 데이터 기반 기업은 더 나은 서비스를 제공하기 위해 고객 행동 데이터를 정리한다. 대부분의 기업은 데이터에 대한 인식이 결여돼 있다.

가트너에 따르면 기업이 매년 불량 데이터 처리에 소모하는 비용은 평균 1500만달러(174억원)다. 기업의 약 60%는 이를 측정도 하지 않는다. 정보 주도형 기업은 정보 자산뿐만 아니라 불량 데이터 처리 비용과 고품질 데이터의 가치를 정확하게 측정하는 기업이다.

기업 가치와 경쟁력 향상을 위해 첫째 중앙화가 필요하다. 장기 차원에서 충분한 시간을 두고 추진해야 한다. 데이터가 기업으로 들어오는 기타 채널을 배제하는 데서 시작해 데이터 관리 중앙화 전략에 집중해야 한다. 소스 단계에서 점차 불량 데이터 여부를 구별할 수 있도록 개선해야 한다.

둘째 통합이다. 대기업은 각 부서에서 운영되는 다양한 데이터베이스(DB)뿐만 아니라 내부 조직이 파악하지 못하는 데이터 소스까지 보유한다. DB와 정보 저장소를 식별하고 통합하는 작업은 불량 데이터 생성을 최소화하며, 기업의 데이터 표준화를 돕는다.

셋째 표준화다. 데이터를 잘 이해하려면 분석이 필수다. 불량 데이터를 보유하는 가장 큰 원인은 표준화 없이 데이터를 수집하기 때문이다. 표준화한 매개 변수 세트를 회사 내부뿐만 아니라 공급자, 파트너와 함께 사용하면 기업으로 들어오는 데이터를 효과 높게 정화할 수 있다.

넷째 데이터 조사다. 데이터에서 오류가 발생할 수 있다는 사실을 이해하고 확실한 데이터를 기준으로 원인을 파악해야 한다. 이를 통해 이상징후에 대응하고 데이터를 복원할 수 있다.

다섯째 중복 데이터의 제거다. 중복 데이터는 데이터가 부정확하게 되는 주원인이다. 이는 다수의 저장소로 인해 발생하며, 인력 과실이 더해진다. 통합 프로세스를 활용하면 중복 데이터를 제거하고 표준화 기준을 충족시킬 수 있다. 이를 실현하기까지 많은 시간이 소요되지만 고객 정보와 비즈니스 인텔리전스 기능을 강화하는 가장 빠른 방법이다.

마지막은 데이터를 정제하는 것이다. 클라우드 플랫폼, 특히 하이브리드 클라우드는 데이터 정제를 위한 다양한 툴을 바탕으로 최상의 환경을 제공한다.

데이터에 대한 기업 의존도가 증가할수록 데이터 가치는 높아진다. 데이터는 무한한 가능성이 있지만 잘못 관리할 경우 막대한 손실을 야기한다. 데이터가 이끄는 미래 사회에서 기업이 불량 데이터의 '숨은 비용'을 정확히 이해하는 것은 미래 비즈니스 환경에서 생존 열쇠일 것이다.

김종덕 뉴타닉스 한국지사장 jdkim@nutanix.com