업스테이지, 신규 OCR 모델 '다큐먼트 파스' 공개 “AWS, MS 모델보다 뛰어나”

업스테이지
업스테이지

업스테이지가 신규 광학문자인식(OCR) 모델 다큐먼트 파스(Document Parse)를 공개했다.

다큐먼트 파스는 기존 OCR 기술에서 명확한 인식이 어려웠던 여러 열의 레이아웃이나 테이블 등을 포함한 복잡한 형태의 문서를 처리할 수 있다.

어떤 형식의 문서도 HTML과 같은 구조화된 텍스트 형식으로 전환해 보다 쉽게 데이터를 자산화할 수 있다.

HTML 외에도 헤더 및 테이블 요소를 마크다운 형식으로 제공해 거대언어모델(LLM) 사용자가 입력 문서의 토큰 크기를 줄일 수 있는 것도 강점이다.

업스테이지는 문서 구조 분석 벤치마크 'DP-Bench'를 통해 다큐먼트 파스의 성능을 빅테크 기업 모델과 비교했다. [사진=업스테이지 제공]
업스테이지는 문서 구조 분석 벤치마크 'DP-Bench'를 통해 다큐먼트 파스의 성능을 빅테크 기업 모델과 비교했다. [사진=업스테이지 제공]

업스테이지는 문서 구조 분석 벤치마크 'DP-Bench'를 통해 다큐먼트 파스의 성능이 빅테크 기업 제품보다 뛰어나다고 설명했다.

평가 결과에 따르면, 다큐먼트 파스는 '레이아웃 및 테이블 구조', '콘텐츠 분석' 등 정확성을 측정하는 모든 지표에서 아마존웹서비스(AWS)와 마이크로소프트(MS) 등 빅테크 기업 5곳의 관련 서비스보다 높은 점수를 받았다.

페이지 당 문서 처리 속도도 다큐먼트 파스가 3.79초로 AWS의 '텍스트랙트'(14.47초)보다 약 4배 빨랐다.

다큐먼트 파스를 통해 데이터 전처리 과정의 정확성, 사용성, 속도를 높여 기업·기관에서 거대언어모델(LLM) 활용 시 큰 도움이 될 것으로 기대된다.

김성훈 업스테이지 대표는 “다큐먼트 파스는 기업 내 문서를 가장 정확하게 자산화해 LLM을 실제 업무에 즉각 적용할 수 있도록 만드는 최적의 도구”라며 “다양한 비즈니스에서 활용돼 업무 혁신을 현실화할 것”이라고 말했다.

현대인 기자 modernman@etnews.com

AI