누리IDT, AI 기반 고문헌 OCR 3종 출시

초서 OCR 서비스의 초서 원문 이미지 자동 인식과 텍스트 출력
초서 OCR 서비스의 초서 원문 이미지 자동 인식과 텍스트 출력

지능형 데이터 전문 기업 누리IDT는 인공지능(AI) 기술을 기반으로 초서체 한자와 옛 한글, 국한문 혼용문을 자동 인식하는 '고문헌 OCR 서비스' 3종과 고문헌 원문 한문을 띄어쓰기해 주는 '자동 표점 서비스'를 출시했다고 2일 밝혔다.

초서 OCR는 난해한 초서체 한자를 AI가 인식해 정자로 자동 변환해 준다. 손글씨로 흘려쓴 초서 필사본은 '승정원일기'와 같은 국가 공식 기록물을 비롯해 각종 공문서, 개인 문집, 일기류, 서한 등 전통 고문헌의 상당 부분을 차지하고 있다. 소수의 초서 전문가들이 일일이 탈초(정자로 옮겨쓰기)해 주기 전에는 고문헌 연구자들도 판독하기 어려워하는 대상이다. 초서 원문을 본 '초서 OCR' 서비스를 이용하면 연구자들을 포함해 누구나 좀 더 쉽고 간편하게 읽고 디지털 텍스트로 활용할 수 있게 됐다. 다만 초서 자료는 워낙 유형이 다양한 까닭에 OCR 인식률을 크게 높이기 어려운 한계가 있다. 누리IDT는 “AI 모델 알고리즘의 개선 및 보다 많은 초서 학습 데이터의 확보를 통해 OCR 성능을 지속적으로 향상시켜 나갈 예정”이라고 전했다.

고문헌 OCR 서비스는 △고문헌 자료의 자동 문자인식 △자동 표점 △자동 번역의 자동 처리 토털 솔루션을 목표로 하는 서비스다.

자동 표점 서비스는 전문가들만이 할 수 있는 그 고되고 오랜 시간 걸리는 표점 작업을 AI가 자동으로 순식간에 그리고 대단히 정확하게 처리해 준다. 표점이란 원문 전체가 하나의 문장처럼 붙여쓰여 작성된 고전 한문 텍스트에 대해 의미 단위로 띄어쓰기하고 온점(。마침표)과 반점(, 쉼표) 등 구두점을 찍어 문장을 구분하는 것을 말한다. 지금까지는 전문 연구자들이 원문 텍스트 한 줄 한 줄에 대해 꼼꼼히 읽고 의미 단위마다 일일이 구두점을 찍는 작업을 해 왔다. 대표적으로 표점과 번역에 20년 이상이 걸린 '조선왕조실록', 완료하기까지 앞으로도 40년 이상이 더 소요될 '승정원일기' 번역 사업 등이 그렇게 진행되고 있다.

자동 표점 서비스
자동 표점 서비스

누리IDT의 자동 표점 서비스는 1000자 분량의 한문 원문 텍스트를 붙여넣거나 파일 불러오기로 입력하면 1초 이내에 표점을 처리해 준다. 표점의 정확도는 90% 이상으로서 관련 전공 석사 수준을 능가하는 고성능을 시현한다. 표점이 잘못 처리된 경우에는 사용자가 결과 화면에서 곧바로 수정 입력할 수 있는 기능도 제공한다. 이 서비스를 이용하면 전문가가 한 달 넘게 전념해야 할 표점 작업을 단 하루 만에 마칠 수가 있다.

누리IDT 관계자는 “앞으로도 출시 서비스의 성능 향상에 꾸준히 노력하고, 고문헌 자료의 자동 번역 모델 개발에 착수해 누구나 손쉽게 고문헌 콘텐츠에 접근할 수 있도록 하겠다”라고 밝혔다. 누리IDT의 OCR 서비스와 표점 서비스는 홈페이지에서 간단한 회원 가입을 거쳐 누구나 사용해 볼 수 있다.

한편 누리IDT는 지난해 5월 AI 모델이 고문헌의 해서체와 행서체 한자를 평균 98%의 정확도로 자동 인식해 디지털 텍스트로 변환해 주는 '고성능 한자 OCR 서비스'를 개발해 호평을 받은 바 있다.

송혜영 기자 hybrid@etnews.com