사회 각 분야에서 많은 노력과 활용으로 전자문서 도입이 어느 정도 정착됐다. 여전히 종이문서도 사용되고 있지만 예전과 같이 주류가 아닌 보조적인 수단이거나 업무 편의상 일부 영역에서 활용되고 있다.
그렇다면 현재 우리 사회가 이뤄 놓은 전자문서 활용의 기반이 바로 디지털 사회에서 활용될 수 있을까. 실제 전자문서 내에 들어 있는 내용, 즉 데이터를 자유롭게 활용하기에는 한계가 있다. 비정형 데이터 구조로 된 전자문서 때문이다. 산업계에서는 전자문서 유형을 크게 세 가지로 구분한다.
첫 번째가 정형화된 메시지 규칙이 있는 전자문서다. 주로 전자거래(EDI 등)에 사용되던 데이터 메시지 개념을 통칭한다. 두 번째는 종이문서를 스캔(전자화) 및 이미지화한 문서인 전자화문서가 있다. 마지막으로는 기업 업무 시스템(ERP, 그룹웨어 등) 또는 문서편집기 등에서 만들어 낸 전자문서다. 이 가운데 첫 번째 유형을 제외한 나머지 전자문서는 비정형 데이터 구조로 되어 있어 데이터 추출과 활용에 제약이 있다.
데이터를 효과적으로 활용하는 데이터 시대가 오고 있다. 인공지능(AI), 빅데이터, 클라우드 등 신기술이 이런 흐름을 주도하고 있다. 그렇다면 전자문서는 어떤 역할을 해야 하나. 비정형 데이터 구조 전자문서에서 활용 가능한 데이터를 추출하려면 사람이 개입하거나 전용 솔루션을 쓰는 등 부가적인 처리 과정 또는 비용이 소요될 것으로 예상된다.
이를 개선하려는 노력 가운데 하나가 바로 행정안전부의 공공서식 개선 정책이다. 공공에서 사용하는 서식은 주로 한글 파일 포맷이다. 대표적인 비정형 구조 문서 파일이라 할 수 있다. 문서를 작성해서 보관하거나 종이로 출력해서 사용하던 시기에는 이슈가 되지 않았지만 이를 데이터로 활용, 시스템에서 자동으로 활용하기에는 한계가 있는 것이 사실이다. 비정형 데이터 구조 문서에서 필요한 데이터를 추출하기 위해서는 검색엔진, 문서필터, 문서뷰어 등 다양한 기술이 필요하다. 그러나 이 기술을 사용해도 원하는 데이터 추출이 완벽하지 않고, 시간과 노력이 소요된다.
행안부가 공공서식 파일 포맷을 바꾸려고 결정한 배경에는 '데이터 기반 행정활성화 법' 시행도 한 역할 했다. 공공데이터 개방 2.0 정책에서도 공공데이터 개방과 활용 계획을 구체화해서 제시하고 있다. 행안부가 대안으로 택한 포맷은 개방형문서표준(ODF)이라는 정형화된 구조로 된 대표적 문서 포맷이다. ODF는 특정 편집기 기업에 종속되지 않는 개방형 문서 포맷으로, 국제표준으로 지정돼 있다. 내부 구조에 확장성생성언어(XML)를 포함하고 있어 데이터 활용이나 시스템 연계에도 최적이다.
과학기술정보통신부도 이 같은 동향에 맞춰 국내 문서편집기 공급 기업이 사용자에게 원활하게 제공할 수 있도록 정책적인 지원을 검토하고 있는 것으로 알려졌다. 글로벌 문서편집기 시장은 소수의 글로벌 기업이 주도하고 있다. 마이크로소프트(MS) 점유율이 가장 높다. 구글도 클라우드 기반의 각종 기능을 제공한다. 우리나라도 4~5개사 전문기업이 경쟁하고 있다. 정부 공공서식 관련 정책은 국내 산업 생태계를 고려, 중장기적 관점에서 추진돼야 한다.
전자문서 흐름이 종이에서 전자적인 형태로 작성·송수신·저장을 위한 목적이 컸다고 하면 앞으로의 전자문서는 그 안에 있는 데이터를 얼마나 잘 활용할 수 있느냐가 관건이 될 것이다. 이는 단순히 전자문서 포맷을 바꾼다는 협의의 문제가 아니다. 전자문서의 활용 패러다임이 바뀌어야 한다는 점과 관련 생태계 역시 적극 전환이 필요하다는 점을 보여 준다.
전자문서는 종이와 대비되는 전자 개념에서 데이터별로 독립 기능과 속성을 띤 조합으로 구성·활용할 수 있는, 디지털로 처리되는 문서 또는 정형화 구조로 된 디지털문서로 정의할 수 있다. 전자문서가 보관에 머무르지 않고 디지털문서로 업그레이드, 사회 전 영역에서 널리 활용되고 자리 잡을 수 있도록 노력해야 한다.
김성규 한국전자문서산업협회장 gform@epostopia.com