업스테이지가 신규 광학문자인식(OCR) 모델 다큐먼트 파스(Document Parse)를 공개했다.
다큐먼트 파스는 기존 OCR 기술에서 명확한 인식이 어려웠던 여러 열의 레이아웃이나 테이블 등을 포함한 복잡한 형태의 문서를 처리할 수 있다.
어떤 형식의 문서도 HTML과 같은 구조화된 텍스트 형식으로 전환해 보다 쉽게 데이터를 자산화할 수 있다.
HTML 외에도 헤더 및 테이블 요소를 마크다운 형식으로 제공해 거대언어모델(LLM) 사용자가 입력 문서의 토큰 크기를 줄일 수 있는 것도 강점이다.
업스테이지는 문서 구조 분석 벤치마크 'DP-Bench'를 통해 다큐먼트 파스의 성능이 빅테크 기업 제품보다 뛰어나다고 설명했다.
평가 결과에 따르면, 다큐먼트 파스는 '레이아웃 및 테이블 구조', '콘텐츠 분석' 등 정확성을 측정하는 모든 지표에서 아마존웹서비스(AWS)와 마이크로소프트(MS) 등 빅테크 기업 5곳의 관련 서비스보다 높은 점수를 받았다.
페이지 당 문서 처리 속도도 다큐먼트 파스가 3.79초로 AWS의 '텍스트랙트'(14.47초)보다 약 4배 빨랐다.
다큐먼트 파스를 통해 데이터 전처리 과정의 정확성, 사용성, 속도를 높여 기업·기관에서 거대언어모델(LLM) 활용 시 큰 도움이 될 것으로 기대된다.
김성훈 업스테이지 대표는 “다큐먼트 파스는 기업 내 문서를 가장 정확하게 자산화해 LLM을 실제 업무에 즉각 적용할 수 있도록 만드는 최적의 도구”라며 “다양한 비즈니스에서 활용돼 업무 혁신을 현실화할 것”이라고 말했다.
현대인 기자 modernman@etnews.com