정부가 인공지능(AI) 학습데이터를 구축하고 있는 가운데 문서 관련 학습데이터도 포함되어 있다. 하지만 수십년 동안 민간·공공에서 작성하고 축적한 문서 정보의 디지털전환이나 지식 활용은 여전히 답보 상태에 머물러 있다고 할 수 있다.
종이 기록물의 디지털화로 검색이 겨우 가능하게 됐지만 대부분 비정형 데이터이기 때문에 AI가 활용하기에는 한계가 있다. 이러한 한계를 극복하기 위해 올해부터 정부 기관에서 신규 문서 작성 시 개방형 문서 포맷 표준을 사용하도록 하고, 보도자료 작성 시 메타정보를 추가해서 작성하도록 권고하고 있다. 또 이렇게 작성된 문서 내부 정보를 정형화해서 DB 형태로 구축하려는 노력도 진행되고 있다.
가치 있는 시도이지만 현실적인 어려움이 있다. 민간기업 및 공공기관에서 마이크로소프트(MS), 한컴 등 오피스 제품으로 다양한 종류의 문서를 사용하고 있는데 데이터 활용을 위해 문서마다 메타정보를 입력하도록 한다면 오히려 사용자 불만을 초래할 공산이 높을 것이다.
국내외 전자문서 선도 기업은 AI 기술을 활용해 별도의 메타데이터 입력 작성 없이 문서에서 필요한 정보를 추출·인식하고 활용할 수 있는 서비스나 솔루션을 선보이고 있다.
AI 광학식문자판독장치(OCR, 딥러닝 기술 기반으로 인식률을 획기적으로 높이는 방식), 문서필터(문서 내 텍스트·표·차트·이미지 등 객체 추출), 문서이해(Document Understanding, 딥러닝 기반 자연어 처리를 통한 문서 내 정보 종합 인식), 지능형문서처리(IDP; Intelligent Document Processing) 등 요소 기술이 있다. 이미 로봇처리자동화(RPA) 등 업무 자동화에 활용되고 있으며, 학습 데이터 축적과 AI 기술 발전이 가속화됨에 따라 보관만 하던 문서 정보가 새로운 가치로 인정받고 있다.
기존 문서 정보 가치를 높이고 문서 생산 및 처리 프로세서를 자동화하는 디지털 문서 관련 기술을 효율적으로 이용하는 방향을 아래와 같이 제시한다.
첫째 멀티모덜 기술 고도화다. 문서에 포함된 텍스트, 레이아웃, 이미지, 숫자표, 차트 등을 종합적으로 분석하고 해석하는 것이 중요하기 때문에 NLP 관련 학계와 문서 해석 전문 기업 협력으로 해당 기술 개발을 촉진할 수 있을 것이다.
둘째 AI 모델 성과 확인을 통한 데이터 검증 및 정제다. 축적된 학습 데이터 신뢰성을 검증하는 시범사업이 필요하다. 행정 정보, 민원 정보, 법률 정보 등 각 분야 전문가와 전문기업의 참여는 필수라 할 수 있다.
셋째 단계적 디지털전환 접근이다. 문서의 디지털전환 목표를 업무 전체가 아니라 단위 프로세스별로 AI OCR 및 RPA 등 요소 기술을 적용, 우선은 투입 인력을 줄이고 업무 시간 단축 등을 목표로 한 단계적 접근이 필요하다. 특정 기술이나 제품에 종속되지 않고, 더 향상된 문서 관련 AI 기술은 유연하게 도입할 수 있는 체계를 지향하여 연속적인 개선 체계를 마련할 수 있을 것이다.
이와 같은 AI 기술 고도화 및 도입 과정 인식 개선을 통해 문서의 단순한 디지털화를 넘어서야만 문서를 가치 기반 정보로 활용할 수 있을 것이며, 기업과 사회 문제 해결을 위한 지식 저장고로서 디지털 문서가 제대로 된 역할을 하게 될 것이다.
전경헌 사이냅소프트 대표 allen@synapsoft.co.kr