[테크리포트] '못난이' 데이터, '멋쟁이' 변신 중…'비정형데이터'가 뜬다

마윈 전 알리바바 CEO가 저술한 책 "데이터를 지배하는 자가 세계를 지배한다"에서는 전체 데이터 중 비정형데이터가 80%를 차지하고 이중 32%가 전자문서, 25%는 소셜 인터랙션(SNS 게시글), 23%가 사물인터넷(IoT)에서 수집한 데이터 등으로 언급됐다.
마윈 전 알리바바 CEO가 저술한 책 "데이터를 지배하는 자가 세계를 지배한다"에서는 전체 데이터 중 비정형데이터가 80%를 차지하고 이중 32%가 전자문서, 25%는 소셜 인터랙션(SNS 게시글), 23%가 사물인터넷(IoT)에서 수집한 데이터 등으로 언급됐다.

시장조사업체 가트너는 2016년 매직 쿼드런트 보고서에서 앞으로 빅데이터와 인공지능(AI) 기술 발전을 위해 데이터 품질 관리 중요성을 강조했다. 그러나 기존 데이터 품질 관리는 전체 20%에 불과한 정형데이터 중심으로 이뤄져 분석 결과 신뢰성을 떨어뜨리고 있다. 비정형 데이터는 특성상 저장매체와 데이터 취약성으로 인해 오류·손상이 빈번하다. 품질진단 기술은 정착되지 않았고, 품질 점검을 위한 육안 실측 업무는 과도한 시간과 인적 자원이 투입된다. 비정형데이터에 대한 품질관리와 관련 솔루션 구축이 필요한 이유다.

김광회 넥스트데일리 기자 elian118@nextdaily.co.kr

◇국내 비정형데이터 관리 실태

저장매체 기술과 통신 인프라 발달로 여러 경로를 통해 빅데이터를 수집·활용할 수 있는 시대가 열렸다. 최근 국회에서 데이터 3법이 통과되면서 비정형데이터에 대한 관심도 고조되고 있다. 하지만 국내 업계의 비정형데이터 연구는 미진하다. 활용은커녕 관리조차도 버거운 실정이다. 정부기관 전수조사도 대부분 이뤄지지 않고 있다.

비정형데이터는 개인정보 외에도 사회적으로 중요한 가치나 사실을 다수 담고 있다. 전자문서는 가장 먼저 정형화 전환이 예상되는 비정형데이터다. 디지털 전환을 맞아, 기업과 공공기관의 데이터 관리 중요성이 높아지는 이유다. 국내에 전자결재 시스템이 도입되기 시작한 것은 2004년이다. 이후 디지털 전환 가속화로 계약서, 증권, 공문서 등 장기 보존이나 정보보안이 요구되는 전자문서도 빠르게 늘고 있다.

그러나 ETRI 보고서에 따르면 6일에 1회꼴로 1페타바이트(PB) 데이터에서 3%가량 디스크 장애가 발생하는 것으로 파악됐다. 데이터가 늘어날수록 장애도 더 자주 발생한다.

자료=ETRI 보고서, 클라우드 스토리지 기술동향(2016) 페타스케일을 넘어서
자료=ETRI 보고서, 클라우드 스토리지 기술동향(2016) 페타스케일을 넘어서

데이터 손상은 디스크 장애 외에도 데이터 취약성으로 인해 자연적으로 발생한다. 유형은 파일 오류, 이미지 오류, 압축 오류 등 다양하다. △파일 읽기 불가 △파일 내 이미지 손상 또는 누락 △이메일이나 클라우드로 전달된 파일 손상 등이 대표 사례다. △운용체계나 앱 호환 문제로 인해 내 PC에서는 보이는데 상대방 PC에서는 안 보이는 사례도 있다.

이는 우리 재산이나 사실관계를 뒷받침하는 증거도 일정 확률로 손상될 수 있다는 의미다. 심한 경우 오래 전 은행에 맡긴 공증서가 손상돼 나중에 열 수가 없는 상황이 벌어질 수 있다. 금융기관은 중요 개인정보를 3중 복제 기록하므로 이런 상황은 쉽게 벌어지지 않는다. 다만 이 같은 문건의 손상 여부를 수시로 파악할 수 없다면 책임소재 파악은 물론 복구 가능한 골든타임도 놓칠 수 있다. 보관 중인 데이터가 늘어날수록 빈번한 데이터 검증은 꼭 필요하다.

하지만 비정형데이터는 이상적인 검사를 진행하기엔 워낙 양이 많다. 공문서는 작은 일선기관에서도 연간 20만건이 생산되고 있고, 중요 문서는 보통 30년부터 영구 보존까지 장기시효가 적용돼 계속 늘어나는 구조다. 업계 관계자에 따르면 한 국가기관에서 보유 중인 전자기록물을 검사한 결과 3.9%에서 기계적 오류를 발견했다고 밝혔다. 적은 오류율이지만 발견된 전체 오류 문건만 55만여건에 달했다.

시간이 지날수록 관리할 데이터가 늘어나지만 2018년 발간된 '공공데이터 품질관리 매뉴얼 V2.0'에 언급된 '품질 진단 방법' 지침에서는 기계를 활용한 데이터 진단을 고려하지 못하고 있다. 이는 지금까지 정형데이터 중심으로 데이터 품질이 관리돼 왔으며 효율적인 비정형데이터 품질 관리를 고려하지 못하고 있다는 방증이다.

공공데이터 품질관리 매뉴얼 V2.0(2018.1)에 제시된 비정형데이터 품질 진단 방법 [출처=공공데이터포털]
공공데이터 품질관리 매뉴얼 V2.0(2018.1)에 제시된 비정형데이터 품질 진단 방법 [출처=공공데이터포털]

육안 검사는 데이터 진단에 상당한 시간과 인력 투입이 불가피하다. 대기업이나 중앙기관처럼 대규모 예산이 배정된 사례가 아니라면 쉽사리 엄두를 못 낸다. 지난해 시·도급 지방교육청 한 곳에서 육안 검사 사업으로 배정한 예산만 1억8000만원이다.

출처=법제처
출처=법제처

기계 데이터 검사를 활용할 수 없는 상황에서는 관리 소홀로 인한 책임규정도 무색해진다. 현행법에는 기록물 관리 소홀에 대한 처벌 근거가 마련돼 있지만 솔루션 도움 없이 그 책임을 다하기란 현실적으로 어렵다. 또 관리책임자가 반복적인 손상 데이터 발생을 인지하고 있다고 추정되면 이미 중대한 과실을 범하고 있다고 판단할 수 있다.

출처=법제처
출처=법제처

심지어 지난해만 하더라도 공무원에게만 법적 책임을 물었다. 공무원이 아닌 공기업 직원이 공문서를 고의로 훼손한 경우는 책임을 회피할 수 있었다. 최근 관세청장 면세점 심사 자료 파기(2017년), 수자원공사 '4대강 문건' 등 파기(2018년), 인천시 기록물 파기(2018년) 사건 책임자들이 무혐의 처분이나 경미한 처벌에 그친 것도 이와 관련 있다.

◇데이터 검사 시장의 태동

비록 정부 지침은 기계 데이터 검사법을 고려하지 않고 있지만 실무자들은 그 필요성을 인정하고 있다. 국가기록원은 나라장터 공고를 통해 이미 우수조달 제품으로 등록된 기게 검수 제품이 존재함에도 자체 개발을 시도하고 있다.

최근 정부는 자치단체까지 온나라시스템 클라우드 전환을 준비하면서 데이터 이관 도중 발생할 수 있는 데이터 오류 검사 수요도 점차 증가하고 있다. 지난해 10월에는 공공기록물 관리법을 개정해 공무원 외 관리자에 대한 데이터 무단파기 처벌 근거도 마련하고 올해 6월 4일 시행을 앞두고 있다. 지자체는 물론 공공기관까지 비정형데이터 검사 시장이 추가로 열리는 것이다. 특히 2인 안팎의 전산실 인력이 전자기록물을 관리하는 군청 단위 소규모 지자체에서는 도입이 시급한 실정이다.

출처=법제처
출처=법제처

현재 국내 전자문서 오류·손상 자동 검사 솔루션은 에이씨앤에스의 '다큐체크아이(Docu Check-i)'가 사실상 유일하다. hwp, odt, pdf, doc(x), ppt(x), xls(x), tiff, jpeg, gif, bmp 등 13종 포맷의 전자기록물을 식별하고 포맷별 문법 오류를 검사해 데이터 재현 가능성을 검증할 수 있다. 최근에는 온나라시스템의 기안기 저장포맷(.odt)까지 추가 개발했다. 비용은 공공조달몰에 등록된 기준으로 연간 6050만원 수준이며, 기계적 오류 판단과 육안검수 판단 차이가 1.25% 이내에 불과할 정도로 비교적 정확하다.

제공=에이씨앤에스

다큐체크아이는 현재 3.0 버전까지 출시됐으며 △대검찰청 특수기록관 △한국정보화 진흥원 전자결재 시스템 △대법원 대국민 정보서비스 △경상남도기록원 지역전문기록관 △국가기록원 전자기록물 검수사업 등에 도입돼 보관 중인 관련 공공기록물에 대한 기계적 검사를 적용한 바 있다. 물론 해당 솔루션은 검사만 할 뿐 손상된 데이터를 복구하지 못한다. 부분적으로 손상데이터를 다른 자원으로 대체해 복구할 수 있지만 이 경우 원본데이터와 동일성을 해칠 수 있다. 다만 주기·상시적으로 데이터 손상 여부를 확인함으로써 관리가 한결 수월해진다. 검사 주기가 짧을수록 2차 육안검사 부담도 줄일 수 있다.

무엇보다 비정형데이터는 오류가 없으면 특정 솔루션을 통해 언제든 정형화할 수 있다는 데 의미가 있다. 지금까지 AI 기계학습에 제공되던 데이터에 그동안 적용하지 못했던 비정형데이터까지 포함할 방안이 마련되는 것이다. 중요 정보를 담고 있는 전자문서까지 활용하게 되면 높은 수준의 AI 개발이나 관련 서비스 상용화도 가속화될 것이다.

◇급성장한 비정형데이터 시장, 갈등도 늘어나

앞서 살펴봤듯이 비정형데이터에 대한 품질 관리의 필요성이 커지면서 이를 정부가 자체 개발하려는 시도가 일면서 갈등도 나타나고 있다. 2020년 대통령기록관은 '차세대 대통령기록관리시스템(PAMS) 구축' 제안요청서(RFP)를 나라장터에 공고했다. 이에 따르면 청와대는 기능 요구사항으로 파일 상태를 검증하는 'SFR-006'에서 민간에 있는 솔루션인 다큐체크아이와 유사한 기능 개발을 의뢰하고 있다.

출처=차세대 대통령기록관리시스템(PAMS) 구축 사업 제안요청서(2020.1)
출처=차세대 대통령기록관리시스템(PAMS) 구축 사업 제안요청서(2020.1)

새로운 PAMS는 단독기관시스템으로 구축돼 '소프트웨어 영향 평가 제도'에 위배되지 않지만 이 과정에서 개발된 솔루션은 기존 우수조달제품으로 등록된 다큐체크아이 특허를 침해하게 된다. 업체 간 분쟁을 야기할 만한 사안이다. 이러한 내용은 '2019년 청와대 기록관리시스템 구축' 사업에서도 유사했었다. 또 국가기록원 일부 부서에서는 최근 3년에 걸쳐 총 15억을 배정해 기계식 데이터 검사 솔루션을 자체 개발하겠다는 입장이었다. 이와 관련 양광완 에이씨앤에스 대표는 정부가 자체 개발해 배포하는 것은 시장을 키우는 것이 아니라 오히려 왜곡시킬 수 있다고 우려했다.

이 같은 갈등은 준비되지 않은 상태로 빠르게 커지는 비정형데이터 시장에서 필연적으로 발생되고 있으며 반드시 교통정리가 필요한 부분이다. 기계 판독·분석이 가능한 비정형데이터가 많아질수록 검사 솔루션 수요도 커질 전망이다. 기술이 발전하면 전자문서와 더불어 소셜 인터랙션(SNS)과 IoT 수집 데이터까지 활용 범위가 확대될 것이다.

◇양광완 에이씨앤에스 대표 인터뷰

양광완 에이씨앤에스 대표 [사진=에이씨앤에스]
양광완 에이씨앤에스 대표 [사진=에이씨앤에스]

2018년 설립된 에이씨앤에스는 국내 비정형데이터 부문의 자동 품질 검사 솔루션을 갖춘 지능형 전자문서·이미지 분야 전문 중소기업이다. 최근 관련 솔루션이 조달청 우수제품으로 등록돼 시장 공략에 속도를 내고 있다. 창업자 양광완 대표와 인터뷰를 나눠봤다.

-데이터 3법이 국회 문턱을 넘으며 데이터 경제 진입이 예상된다. 빅데이터, AI 시대의 데이터 관리란 무엇인가

▲데이터에 대한 조직의 내·외부 사용자 요구를 수집·분석하며, 지속적인 개선을 통해 데이터 가치를 창출하는 활동이라 생각한다. 가치 있는 데이터 창출은 향후 국가와 개인을 위한 미래핵심역량으로 자리매김할 거라 확신한다.

-비정형데이터 품질 관리는 갈수록 중요성이 커지고 있다. 시장 전망은

▲지금껏 정부는 정형데이터 중심으로 데이터를 관리해 왔다. 그러나 비정형데이터, 특히 전자문서, 이미지에는 각종 현황, 문제점 및 개선 사항, 향후 개선 목표, 의사결정 내용 등 중요 정보를 포함하고 있다. 한 건만 잘못돼도 국민 이익을 심각하게 훼손시킬 수 있다. 이 데이터들은 때로는 인위적으로 손상되기도 한다. 국민들은 지금도 4대강 사업 자료를 포함한 원본 기록물을 무단 파기하려다 적발된 2018년 한국수자원공사 사건을 기억하고 있다.

비정형데이터에 대한 품질관리는 빅데이터, AI 시대을 맞이하기 위해 반드시 필요한 전처리 활동이라 생각된다. 오류·손상 없는 비정형데이터를 정형화해 안정적으로 AI 학습데이터를 확보할 수 있어야 한다.

-다큐체크아이가 조달청 우수제품으로 선정됐다. 소감과 계획은

▲선정까지 많은 어려움이 있었다. 국내에서 벤처기업 창업이 쉽지 않다는 걸 실감했다. GS 인증 시험, 특허 출원, 제품에 대한 특허 적용 여부 심사, 국제공인 기준의 성능 시험 등 우수조달이 되기까지 많은 비용도 수반됐다. 선정 이후 1996년부터 시행된 우수조달제도에 의한 소프트웨어 부문 우수조달업체가 겨우 10곳이라는 사실에 더 놀랐고, 우리 제품이 인정받았다는 생각에 들뜨기도 했다. 중요한 건 이제부터다. 적극 마케팅으로 판로를 개척하고, 파트너를 발굴할 것이며 성능과 품질을 지속 개선해 나갈 예정이다.

-정부와 기관 등 공공 부문의 데이터 관리에 대한 인식변화도 필요해 보인다.

▲데이터는 미래 산업의 원유로 비유할 만큼 중요한 자원이다. 특히 비정형데이터는 전체 데이터의 80%를 넘어 기하급수적으로 늘고 있다. 체계적 관리를 통해 불확실한 데이터 분석 결과로부터 위험을 예방하고, 정제된 데이터 분석만이 미래 핵심역량을 축적할 수 있다고 생각한다. 그것이 진정한 AI 시대로 가는 길이다.