[이슈분석]AI 만난 OCR, 비대면 수요 속 공급 폭주…디지털 전환 '속도'

[이슈분석]AI 만난 OCR, 비대면 수요 속 공급 폭주…디지털 전환 '속도'
게티이미지뱅크
게티이미지뱅크

광학문자판독(OCR) 솔루션이 인공지능(AI) 기술 발전에 힘입어 민·관 디지털 전환을 가속화한다. 특히 코로나19 사태 이후 비대면 수요가 늘어나면서 업계가 분주하게 움직인다.

◇AI로 정확도 높아진 OCR…도입 분야도 다양

OCR은 사람이 쓰거나 기계로 인쇄한 문자 영상을 이미지 스캐너로 획득해 기계가 읽을 수 있는 문자로 변환하는 기술이다. 대표 적용 분야로 PDF 문서 변환이 꼽힌다. PDF는 위·변조를 막기 위해 문서 내용을 변환할 수 없도록 설계되지만 사후 편집이 어렵고 내용 검색도 어렵다. OCR을 적용하면 PDF 문서를 한글, 워드 등 다른 문서 형태로 쉽게 변환한 뒤 편집할 수 있다.

OCR은 당초 사람이 직접 입력하는 것과 비교해 정확도가 떨어진다는 지적이 있었다. 딥러닝 등 기계학습을 통한 AI 기술 발전으로 정확도가 높아졌다. 주민등록증, 여권 같은 신분증부터 신용카드, 영수증, 상품 패키지, 컨테이너 차량, 책, 간판 인식 등에 활용된다. 기업 기밀 유출을 막기 위한 문서 마스킹 등에도 적극 도입되는 추세다. 로보틱프로세스자동화(RPA) 도입에도 OCR은 필수다.

글로벌 시장조사업체 그랜드뷰리서치에 따르면 글로벌 OCR 시장은 지난해 62억달러(약 6조8000억원)에서 연평균성장률 13.7%를 보이며 2025년 134억달러(약 15조원)까지 성장할 전망이다. 올해 시장은 72억달러(약 8조원) 규모로 추산된다. 관련 소프트웨어(SW)는 데스크톱과 모바일, 클라우드 등으로 제공되며 OCR 도입을 위한 컨설팅과 아웃소싱, 시스템 통합(SI) 사업도 늘고 있다. 해외에선 구글과 IBM이 OCR 기술을 연구개발(R&D)하는 대표 기업으로 거론된다.

◇생보사·수기출입명부 등 OCR 적용으로 효율성↑

생명보험사에서도 AI OCR 기술이 인기다. 오렌지라이프는 고객이 수기로 작성한 문서를 디지털 데이터로 변환하는 오픈소스 기반 'AI OCR 플랫폼'을 자체 기술력으로 구축했다. 신분증, 병원 진단서, 공공기관 서류 등 복잡한 서식 내부 문자 데이터를 추출하는 것도 가능하다. 이미지 접수와 동시에 실시간으로 이미지 처리 데이터를 확인할 수 있다. 사람이 일일이 확인 후 처리해야 했던 서류 작업 프로세스를 획기적으로 향상시켰다.

오렌지라이프는 보험금 청구 업무에 이를 우선 적용해 대상 고객이 아닌 다른 개인정보가 서류에 포함됐는지 자동 판단한다. 보험금 착오 지급 등 문제를 예방하고 보험 사기를 조기에 방지한다. OCR 기술로 빅데이터에 활용할 수 있는 기초 데이터를 축적할 수 있는 만큼 향후 이를 바탕으로 다양한 비즈니스 기회를 창출할 방침이다.

업계에 따르면 코로나19 사태 이후 수기출입명부 전산화에도 AI OCR 기술이 쓰였다. 전자출입명부는 사회보장정보원에서 일괄 취합하고 관리하지만 수기출입명부는 제각각 작성되는 탓에 지방자치단체별로 관리상 어려움이 있었다.

업계 관계자는 “코로나19 사태 속 각 매장에 작성이 의무화된 출입명부는 양이 방대한 만큼 지자체 인력이 일일이 컴퓨터에 입력할 수 없다”면서 “출입명부를 스캔하는 과정에서 OCR 기술이 이를 전산화하는 것”이라고 말했다.

◇OCR 관심 폭증에 전자문서 업계 분주…인터넷기업도 기술 강화

국내 AI OCR 기술은 전자문서 업계를 중심으로 공급이 늘어난다. 사이냅소프트, 이파피루스 등 전자문서 업체가 AI OCR에 특화한 솔루션을 제공한다.

사이냅소프트는 전자문서 사업 노하우를 바탕으로 AI OCR 솔루션 '사이냅 OCR'을 제공한다. 고도화한 한글 인식률과 속도가 강점이다. 이미지 내 노이즈, 그림자, 왜곡, 학습되지 않은 글꼴로 인한 인식률 저하를 최소화했다. 딥러닝 핵심으로 꼽히는 양질 학습 데이터를 자체 확보, 정확도를 끌어올렸다. 지난 3월 출시 이후 보안업체, 상거래업체, 웹팩스업체 등에서 다양한 레퍼런스를 확보했다.

이파피루스는 지난 6월 AI OCR 솔루션 '텍스트센스'를 출시했다. 딥러닝 기반 AI 기술을 적용해 대용량 문서 이미지를 해석한다. 사람이 손으로 썼거나 인쇄한 이미지를 스캔해 문자 데이터로 변환한다. 핵심어 검출 기능을 통해 필요한 정보만 추출한다. 이미지와 굴곡 보정 등 전처리 과정을 거쳐 문서를 자동으로 분류한다. 국내 한 건설사가 공문 관리 효율을 높이기 위해 '텍스트센스'를 도입해 데이터 추출과 통합 검색, 자동 입력 등에 활용한다.

네이버 OCR 기술은 글로벌 최상위권으로 평가받는다. 한글, 영어, 일본어를 판독해 디지털로 변환하는 데 탁월하다. 한글과 일본어는 필기체도 읽어낸다.

네이버 OCR 기술은 문서 레이아웃 분석과 글자를 읽는 순서 방향을 추정한다. 둥글게 곡선으로 배열되거나 기울어진 문자, 필기체 인식이 가능한 이유다. 고성능 AI를 바탕으로 높은 수준 정확도를 제공한다.

네이버 OCR 기술은 해당 분야에서 가장 권위가 높은 글로벌 챌린지 'ICDAR2019'에서 4개 분야 1위를 달성했다. 또 CVPR·ICCV 등 국제학회에 관련 논문이 선정되는 등 기술력을 인정받았다.

네이버는 기업간거래(B2B)와 기업고객거래(B2C) 시장에서 OCR 기술을 적극 상용화 중이다. 최근 출시한 '클로바 램프(램프)'는 네이버 OCR 기술을 B2C에 활용한 대표 사례다.

램프는 조명 아래 펼쳐진 문서를 실시간으로 판독한다. 이후 음성합성을 거쳐 발화한다. 책을 펼치고 소리 내 읽는 데까지 1초가 걸리지 않는다. 네이버는 포털 네이버에서도 이용자가 외식업체 리뷰 시 영수증을 증빙할 때 OCR 기술을 쓴다.

B2B 영역에서는 기업 업무를 돕는다. 네이버클라우드가 서비스하는 '클로바 OCR'은 문서 정리가 필요한 영수증, 신용카드, 사업자등록증, 고지서 등을 용도에 따라 정확히 분류하고 판독한다.

카카오는 자동차 번호판 자동 인식, 카카오뱅크 신분증 인식 등에서 OCR 기술 가능성을 확인한 뒤 연구개발을 수행했다.

◇AI 기업과 명함 관리 앱도 AI OCR 이점 '톡톡'

AI 기업 셀바스AI는 '셀비 OCR'을 공급한다. '셀비 OCR'은 수작업에 의한 오류를 방지, 업무 투명성과 안정성, 신속성, 정확성을 높인다. 단순 업무 비중을 줄임으로써 비용 절감과 인력 운영 측면에서 유리하다. 신분증과 여권 인식기, 모바일 스캐너 등 비즈니스에 따라 최적화한 제품을 제공한다. 신분증 촬영, 사본 저장, 개인정보 추출 등 비대면 금융 계좌 개설에 필요한 기능을 스마트폰 앱과 모바일 웹에서 쉽게 구현할 수 있도록 지원한다. 촬영한 이미지에 대한 품질을 향상, 높은 인식률이 강점이다.

리멤버는 명함 관리 앱에 AI OCR 기술을 접목, 정확도를 높였다. 인력을 대거 투입해 명함을 수기로 입력하는 비중을 축소할 수 있었다. 3년 전 네이버 라인에 인수되면서 자체 데이터베이스(DB)와 네이버 OCR 기술을 접목하는 등 고도화 과정을 거쳤다. 리멤버 DB에 들어오는 명함 가운데 동일한 명함은 일대일 매칭을 통해 입력하고 기존에 동일한 명함이 없는 새로운 명함은 네이버 OCR 기술로 입력한다.

오다인기자 ohdain@etnews.com, 김시소기자 siso@etnews.com