우리 역사에서 문서는 인간의 고유한 의사의 표현, 기록 및 의사소통 수단, 업무 활용 등 다양한 영역에서 마치 물이나 공기와 같이 필수 역할을 했다.
문서에는 문자뿐만 아니라 도표, 그림, 숫자 등 다양한 콘텐츠를 담아 인류 문명 발전에 이바지했다.
정보통신기술이 활성화된 시대에도 문서의 사용 관행은 크게 변하지 않았다. 단지 종이매체에서 전자문서로 바뀌었을 뿐 여전히 종이문서 사용과 큰 차이가 없었다. 그러나 최근에는 이러한 문서 관행의 뚜렷한 변화 조짐이 일고 있다. 이른바 디지털 문서는 기존 전자문서와 차별되는 점이 있다. 문서 내부에 시스템적으로 처리할 수 있는 계층이 있다는 점이다. 전자문서는 대부분 비정형 데이터이기 때문에 일반적인 정보시스템에서 활용하기 위해서는 사람이 개입하거나 별도의 데이터 추출 과정이 필요했다. 그러나 디지털 문서로 넘어오면서 사람의 개입 없이 문서 그 자체만으로 데이터 추출, 시스템 등록 작업이 가능하게 됐다.
디지털 문서가 활성화된다면 문서 관련 인공지능(AI) 활용 모델 역시 달라져야 할 것이다. 종이나 전자문서 기준의 AI 활용 기술은 디지털 정보로 전환하는 과정에서 왜곡이나 유실이 어느 정도 있기 때문에 이러한 것을 최소화하기 위한 전처리 작업 비중이 높은 편이다.
디지털문서의 경우 이러한 전처리 작업이 최소화되거나 거의 없을 것이다. 이런 경우 AI 효용성이 더욱 높아질 것이며, 이에 따라 문서 내부에 포함된 데이터 활용률 역시 대폭 높아질 것으로 예상된다.
그렇다면 디지털문서가 일반화된 환경에서의 AI 응용 모델은 어떠한 방향으로 발전할 것인가. 필자는 개인적 의견으로 다음과 같이 두 가지 발전 방향을 예측해 본다.
첫 번째 텍스트 애널리틱스(Text Analytics)의 고도화다. 이전부터 존재하는 개념으로, 텍스트 마이닝 또는 데이터 마이닝으로 불렸다. 주요 분석 대상이 DB에 저장된 정형 데이터, 웹사이트, 메신저, SNS 등 반정형 정보였다. 여기에 디지털 문서가 일반화되는 경우 그동안 분석한 전체 대상 총량을 뛰어넘는 막대한 양의 분석 대상이 포함됨으로써 관련된 기술의 발전과 진입장벽이 낮아지고 서비스 비용이 현실화할 것이다. 즉 텍스트 애널리틱스 사용 분야가 넓어지면서 더 높은 생산성과 효율성을 추구할 수 있을 것이다.
다음으로 주목하는 분야는 업무시스템과 디지털 문서 간 상호작용 모델이다. 현재는 업무시스템 정보를 문서화하기 위해서는 인간이 별도의 작업을 통해 데이터를 가져와서 문서 편집기 등으로 작업하는 방식이다. 디지털 문서가 일반화되는 시점에서는 업무시스템에서 AI 기술 기반으로 문서가 자동으로 생성된다든가 외부 시스템에서 작성된 디지털문서가 업무시스템에 자동으로 등록 및 처리가 될 것이다. AI 및 업무시스템이 핵심적인 역할을 하겠지만 이러한 기반 인프라로써 디지털 문서의 중요성이 크다고 생각한다.
디지털문서 기반으로 사회가 진전되고 불필요하고 비효율적인 업무에서 해방된다면 우리는 더욱더 가치 있고 창조적인 업무에 집중할 수 있게 될 것이다. 그러한 시대가 더 빨리 찾아올 수 있도록 우리 모두의 노력이 필요한 시점이다.
하진성 데카소프텍 대표 jeensha@decasoftech.com