데이터 활용 및 분석 시간에서 50~80%는 데이터 정제 작업에 소요된다. 그만큼 데이터 표준화와 품질 개선의 중요성은 엄청나다. 10년 전부터 공공데이터의 개방 공유 활용도 촉진 노력이 이어진 이유다. 수년 동안 정부 주도의 공공데이터 품질 및 표준화를 위한 노력·성과는 전 세계의 관심과 좋은 사례가 됐다. 데이터 표준과 데이터 품질 이슈는 꾸준히 해소됐다.
특히 코로나19로 말미암은 비대면의 일상화는 데이터 폭증을 가져오고, 디지털전환을 가속했다. 마스크 대란 당시와 코로나19 백신 접종 등에서 공공데이터의 중요한 가치를 실감했다.
4차 산업혁명의 지능화, 디지털전환 시대의 경쟁력은 바로 '데이터를 통해 세상을 얼마나 빠르게 잘 이해하고 기민하게 예측할 수 있는가'다. 공공데이터는 데이터를 활용해서 새로운 통찰력을 얻기 위한 다채로운 요리를 하는 데 매우 중요하다. 소금과 같은 필수 양념 재료다. 다양한 데이터 결합과 융합 부가가치를 끌어내는 핵심 공공재 인프라다. 그동안 정부에서 오랫동안 끈기 있게 투자해 온 노력이 최근 디지털 뉴딜 사업과 함께 더욱 성과를 내며 꽃피우고 있다. 현재 공공데이터 포털에서 개방된 데이터는 산업, 학계, 연구소 등에서 다양하게 활용하고 있다. 모든 공공기관이 일관성 있게 활용할 수 있는 공통표준이 보급되면서 정부 부처, 지방자치단체 등 공공기관뿐만 아니라 민간기업 등 산업 전반으로 표준 적용이 확대되는 것이다.
몇 해 전 우리 회사에서 7년 이상 육성된 몇 명의 데이터 전문가를 중앙부처에서 개방직 사무관으로 채용해 가는 마음 아픈 사례도 있었다. 이렇듯 정부 부처에 데이터 전문성이 우수한 공공데이터 전담자가 배치되고 있고, 2018년부터 2020년까지 연차 도입된 중앙부처·지자체·공공기관에 대한 품질관리 수준평가제로 공공기관의 품질관리 수준이 급격히 향상되고 있다.
불과 3년 전만 해도 데이터 오류 진단 기준이 없었고 진단 도구 사용법도 제대로 모르는 기관이 많았다. 품질관리 수준 평가가 공공기관 전체로 확산하면서 데이터 산업 활성화를 위한 중요한 소재라 할 공공데이터 품질이 많이 향상됐다. 자신 있게 데이터를 개방해서 공유하는 기관도 많아지고 있다. 공공뿐만 아니라 민간사업 영역에서도 활용도가 높아져 가고 있다. 그럼에도 데이터 산업 전문업계 입장에서는 민간 영역에서 전처리 과정 없이 공공데이터를 그대로 사용하기에는 여전히 미흡한 부분이 있는 것 또한 사실이다. 더 많은 투자와 노력이 필요하다.
특히 개방데이터는 공공데이터 포털에 데이터가 등록될 때 데이터값에 대한 진단을 강화해 오류데이터 유입을 원천적으로 차단할 필요도 있다.
공공데이터의 표준과 품질은 화려한 애플리케이션(앱)이나 서비스와 같이 겉으로 생색나지 않는, 그야말로 음지에서 묵묵히 일하며 화려한 데이터 산업 활성화를 위해 반드시 담보돼야 할 핵심 데이터 인프라인 것을 잊어서는 안 된다.
데이터 품질은 살아 움직이는 생명체와 같다. 개선됐다고 해서 놔두면 다시 순식간에 10여년 전으로 돌아가고 만다. 지속적으로 데이터 표준 제정, 지침 준수, 품질 수준 유지 등을 할 수 있도록 진단하고 개선하는 일상이 돼야 한다.
겉으로 화려하게 드러나지 않는 공공데이터이지만 지금까지의 인고 노력과 성과에 대해 아낌없이 격려하고, 더욱더 과감한 예산 지원으로 10년 넘도록 어렵게 쌓은 수고와 노고가 물거품이 되지 않도록 해야 한다. 데이터 경제와 데이터 산업 생태계 핵심 인프라를 지키는 길이다. 이것이야말로 더 왕성한 데이터 산업의 촉진제가 될 것이다.
조광원 (사)한국데이터산업협회 명예회장 gwcho@b2en.com