컴퓨터 업무를 취급하는 사람이라면 스캐닝 또는 광학문자판독(OCR)이라는 용어를 들어봤을 것이다. 스캐닝은 종이문서를 디지털 파일로 변환해 컴퓨터에서 읽고 활용할 수 있도록 하는 것이다. OCR는 스캐닝을 통한 디지털 파일(주로 이미지)에서 문자를 인식하고 추출하는 기술이다.
OCR는 주로 인쇄된 문자를 인식하는 용도로 많이 사용된다. 애초 종이문서를 디지털로 변환하는 장비가 주로 스캐너였기에 OCR도 스캐너에서 만들어진 이미지 파일을 기준으로 글자를 인식했다. 현재는 디지털 카메라나 스마트폰 발달로 스캐너뿐만 아니라 스마트폰을 통한 OCR 문자 인식이 일반화하고 있다.
OCR는 2000년대 초 금융권을 중심으로 활발하게 적용됐다. 당시 은행은 종이전표에 인쇄됐거나 고객이 수기로 입력한 종이문서를 처리하는 업무가 대부분이었다. 이때 고객이 제공한 문서에 대해 OCR 엔진을 학습시켜 인식률을 높이는 것은 중요한 과정이었는데 개발자가 문서 유형에 맞춰 일일이 수동으로 엔진 파라미터를 조정해야만 했다. 게다가 오인식된 부분을 찾아 수정하는 데 더 많은 리소스가 들어갔으며 이로 인해 전체 업무 정확도가 떨어지는 문제도 있었다. 이에 금융권에서는 OCR 본 목적인 문자 인식보다는 문서 양식 또는 체크 항목 유무, 바코드 등 비교적 쉽고 위험성이 적은 분야에서 제한적으로 이 기술을 활용했다.
금융권 외 도서스캔을 위해서도 OCR가 많이 쓰였다. 전자출판이 일반화하기 전 도서는 디지털 파일이 존재하지 않아 스캔 외에 대안이 없었다. 이때 글자를 추출하기 위해 OCR가 활용됐다. 도서스캔은 오타에 따른 위험도가 크지 않고 오타 등을 검증하는 체계(교정)가 존재하기에 활용도가 높았다. 이외에도 명함인식이나 차량번호판 인식 등 다양한 응용 분야에서도 OCR가 활용된다.
그동안 발전이 정체됐던 OCR는 딥러닝 기술이 부상하면서 인식 품질이 비약적으로 높아졌다. 사람이 일일이 학습시켜야 하는 부분을 기계학습 알고리즘이 가속화했기 때문이다. 다양한 서체, 색상 혼용, 편집, 노이즈, 해상도 인식 등 인식 장애요소도 상당 부분 해결됐다. 최근 OCR 기술과 이전의 OCR 기술에 대한 차이점을 세 가지로 구분하고자 한다.
첫째 인식 도구의 확대다. 이전의 OCR는 좋은 스캔 환경에서만 정확하게 인식이 됐지만 이제는 다양한 조명, 각도, 그림자, 노이즈 등 인식 장애요소를 딥러닝 기반 OCR 기술로 극복, 스캔 도구와 환경에 대한 의존성이 현격하게 줄었다. 전문 장비가 아닌 일반적인 스마트폰이나 태블릿PC의 내장 카메라에서도 이미지 인식이 가능해졌다.
둘째 이전보다 다양해진 활용 범위다. 텍스트 추출뿐만 아니라 로봇프로세스자동화(RPA)를 통한 업무 자동화, 개인정보 추출·삭제, 스마트폰으로 찍은 진단서, 진료비 영수증 제출 등에 적용된다. 문서 내 표나 이미지 등 객체와 구조를 인식하고 분리 추출하는 것도 가능하다.
셋째 다양한 인공지능(AI) 기술을 지원하는 기반 기술의 역할이다. 최근 OCR는 다양한 AI 모델과 결합해 새로운 부가가치를 창출하고 있다. 문서를 인식해 제3의 문서로 재가공하거나 의사결정을 위한 지원 자료를 생성하는 일, 로봇이 인간의 글씨를 이해하는 기술에 활용하는 것도 가능해질 것으로 보인다.
이에 따라 기존에 OCR 기술 한계로 도입이 중단된 프로젝트들이 재검토되는 상황이다. AI 기반 OCR 기술은 글로벌 기업이 경쟁적으로 개발하고 있지만 한국어 지원은 물음표로 남아 있다. 한글에 대한 AI 기반 OCR 기술을 고도화해 시장을 선도하는 것은 국내 기업이 가장 경쟁력 있게 추진할 수 있는 분야다. 앞으로 AI OCR 기반 제품이 개발돼 전자문서 시장이 성장하고 디지털 전환을 앞당기길 기대한다.
김성규 한국전자문서산업협회장 gform@epostopia.com