표준 측면에서 전자문서를 다루는 국제위원회는 대략 4개 정도라고 생각한다. 첫번째는 ISO TC 171 문서관리응용이며, 두 번째는 ISO TC154 전자거래, 세번째는 ISO TC46 SC11 기록관리, 마지막이 ISO/IEC JTC1 SC34 문서처리기술 및 처리언어다.
TC 171은 마이크로필름이나 EDMS, PDF 등 표준을 다루고 있으며, TC154는 전자상거래상의 프로세스나 데이터 메시지 형태의 전자문서 표준을 다루고 있다. TC46 SC11은 기록보존관련 표준을 다루고 있으며 JTC1 SC34는 개방형문서 포맷(OOXML, ODF), 이퍼브(EPUB) 같은 전자책 표준을 다루고 있다.
이처럼 전자문서라는 단일 항목에 대해서도 산업 또는 용도에 따라 표준에 대한 접근 방향이 다르다는 점을 알 수 있다. 오늘은 이 중에서 최근 국내에 이슈가 되고 있는 전자문서 파일 포맷에서 데이터 추출 및 활용에 대해 문서 전문가로서 의견을 제시하고자 한다.
최근 공공영역에서는 데이터 추출 및 활용에 대한 관심이 높은 것으로 알고 있다.
공공분야 관련 자문이나 토론에 참여해 보면 대부분 공공문서로 많이 사용되는 HWP에 대해 부정적이거나 무조건적인 비토의견을 접하게 된다. 한 업체가 오랜기간 공공영역의 사실상의 표준 문서로 사용되다 보면 이러한 공격을 받는 것은 당연한 것일 수 있다. 그러나 전문가 입장에서 핵심 내용을 비켜간 소모적 논쟁은 건전한 해결책 도출의 걸림돌이라고 생각한다.
일부 전문가들은 HWP파일 포맷이 폐쇄적이라 여기서 데이터 추출 및 활용이 불가하다고 주장하는 데, 실제로 이는 사실과 다르다. 이미 다양한 문서 파일에서 데이터를 추출하는 문서 필터나 뷰어 같은 기술이 존재하며, 행정안전부에서는 2022년 9월부터 HWP대신 HWPX(XML 표준을 내장한 HWP)파일 포맷의 사용을 의무화하고 있는 상황이라 해당 시점 이후 정부 문서는 100% 개방형문서파일로 생산, 유통되고 있기 때문이다.
이제 문서 파일 포맷에 대한 논쟁보다는 데이터 추출 및 활용 관련 논의를 본격화해야 할 시점이다. 이미 워드프로세서, 프레젠테이션, 스프레드시트 등 대부분 문서 포맷이 ZIP포맷 기반의 XML 문서를 기본 골격으로 표현되고 있어 이러한 문서의 데이터를 어떻게 주고받는지에 대한 규격(메타데이터, 데이터 라벨링)이 필요하다는 뜻이다. XML 형식은 기술적 장벽 없이 표준화된 방식으로 문서의 데이터를 추출할 수 있다는 뜻이나, 기계 또는 시스템에서 해당 내용을 이해하기 위해서는 추가적인 작업이 필요하다. 이를 태깅(Tagging)이라고 하는데 특정 영역에 있는 데이터가 어떤 것인지를 설명하는 표시라고 이해하면 된다.
예를 들어 정부부처의 보도자료의 주요 구성 요소인 제목, 요약, 본문정보, 담당부서 정보에 태깅해 정보시스템에서 이를 자동으로 분류하고 데이터화 할 수 있도록 처리하는 것이다.
이미 우리는 우수한 전자정부 인프라를 보유하고 있으며, 문서를 활용하는 다양한 산업분야의 경험과 역량을 가지고 있다. 이제는 포맷의 처리 이슈보다 데이터 전문가(데이터 과학자)의 가치 있는 데이터를 찾고 분석을 위한 논의가 필요한 시점이다.
남동선 ISO TC171-K(문서관리응용) 위원장(서일대 겸임교수), nam.dongsun@gmail.com