소리를 출력하는 사운드카드가 "컴퓨터의 입"이라면 영상을 입력하는 스캐 너는 "컴퓨터의 눈"으로 비유할 수 있다.
컴퓨터의 눈에 지능을 결합시킨다면 어떤 제품이 될까. 스캐너로 받아들인영상을 분석해 문자와 그림으로 분리한 다음 글자만을 인식해내는 문자인식 OCR 시스템 쯤이 될 것이다.
OCR제품은 업무용 문서나 보고서.서적.프린트물 등을 컴퓨터로 재가공할수있는 텍스트 데이터로 간단히 변환시켜주기 때문에 종이없는 사무실을 만드는 데 필수적이다.
A4용지에 빽빽하게 기록된 문서내용을 다시 타이핑하려면 전문 타이피스트 가입력해도 10분쯤 걸린다. 그러나 이를 OCR프로그램으로 읽어들이면 10초면 워드프로세서 데이터로 둔갑시킬 수 있다.
한글을 읽어들이는 OCR프로그램이 상용화된 것은 불과 2~3년밖에 안된다.
현재국내에는 약 10여종의 한글인식프로그램이 개발돼 인기를 끌고 있다.
이 가운데 주노시스템이 최근 발표한 "스피드리더1.2버전"은 처리속도나 인식률이 매우 뛰어나 종이없는 사무실을 대중화시키는 기폭제로 작용할 전망이다. 사용환경 윈도3.1 이상의 운용체계가 탑재된 286PC 상위기종에서 작동한다.
한글을 사용하려면 한글윈도나 한메한글이 탑재된 영문윈도우가 설치돼 있어야 한다. 최소한 4MB이상의 주기억장치가 확보돼 있어야 하고 8MB의 하드 디스크 여유공간이 필요하다.
문서를 읽어들일 스캐너는 기종에 상관없이 공통인터페이스 표준규격인 트웬 Twain 을 지원한 제품이면 사용할 수 있다. 또 핸디스캐너도 흔들림이 심하지 않다면 입력도구로 사용가능하다.
특징 주노시스템의 "스피드리더"는 처리속도가 매우 빠르다는 게 가장 큰 특징 이자 장점이다.
A4용지를 빽빽이 채운 서류내용을 길어야 10초면 컴퓨터 데이터로 해독해 낸다. 이 정도면 국산 OCR제품 가운데 인식처리 속도가 가장 빠른 제품에 속한다. 실제로 제품성능 테스트를 실시한 결과 요즘 한물간 기종에 속하는 8MB 메 모리의 486PC에서도 A4용지에 인쇄된 서류한장을 인식하는 데 10초를 넘지않았다. 제법 복잡한 표나 서식이 포함된 문서의 경우 인식시간이 10초가 걸렸고텍스트만 있는 문서는 6~7초 만에 해독을 끝냈다.
가장 까다로운 문서라 불리는 전화번호부도 20초만에 한 페이지를 완전히 인식해 냈다. 전화번호부는 한페이지에 무려 1만5천자 가량의 문자가 기록돼 있는데다 글자크기도 깨알만큼 작기 때문에 인식률이나 속도를 체크하는 데적격이다. 똑같은 문서를 요즘 인기를 끌고 있는 펜티엄 1백20MHz 기종에서 인식한 결과 486PC보다 평균 3~4배 가량 처리속도가 개선됐다. 물론 스캐닝하는 데 필요한 시간은 포함돼 있지 않다.
미리 스캐너로 책이나 서류를 읽어들여 파일로 보관하고 있다면 5백페이지 분량을 컴퓨터 워드프로세서 데이터로 입력하는 데 1시간 25분밖에 안 걸린다. 프로그램을 조작하고 인식한 결과물을 몇개의 워드프로세서 데이터로 붙이는데 걸리는 시간까지 포함해도 2~3시간이면 작업을 끝낼 수 있다. 이 정도분량의 일이라면 직접 입력할 경우 분당 3백타 속도로 타이핑해도 최소한 1주일은 작업해야 한다.
인식속도가 아무리 빨라도 정확하게 읽어내지 못하면 실무에 적용할 수 없다. 스피드리더는 빠른 처리속도에도 불구, 정확도면에서 매우 높은 점수를 기록하고 있다.
문서의 상태나 스캐닝 해상도에 따라 정확도는 큰 차이를 보이는 게 당연 하다. 스피드리더는 평균 98% 이상의 정확도로 문서를 해독해낸다.
사용환경도 제법 뛰어난 편이다. 윈도환경에서 작동되기 때문에 마우스만 으로 모든 기능을 활용할 수 있다. 출력물도 윈도용 워드프로세서 포맷인 RTF포맷으로 저장할 경우 MS워드나 윈도용 " 글3.0b" "훈민정음" "일사천리" "워드퍼펙트" 등에서 읽어들여 재가공할 수 있다.
특히 1.2버전에서는 표처리기능이 크게 강화돼 문서에 포함된 표와 내용을해독 이를 RTF포맷의 문서파일에서 표형태로 수정없이 사용할 수 있다.
다양한 글꼴이 포함된 문서를 인식한다는 점도 돋보인다. 스피드리더는 신명조.태명조.견명조 등 명조체 계열, 태고딕.견고딕 등 고딕체 계열, 신문명 조.신문고딕 등 신문체계열, 바탕체.윈도우서체.샘물체.고딕체 등 대부분의한글서체를 인식해 낸다.
또 키보드 자판기호(@ ! $ &)와 문서의 순서를 표기한 원문자(1) 2) 3)), 특수문자(iii a.m. ) 등 50여종의 약물을 인식할 수 있도록 개선했다. 초성.중성.종성으로 표기된 대부분의 한글을 인식하기 때문에 조합형 한글 에서만 수용하고 있는 1만자 이상의 글꼴도 받아들여준다.
잘못 인식된 문자를 쉽게 수정할 수 있는 기능도 뛰어나다. 스피드리더는 이미지와 텍스트를 연계시켜 텍스트의 글자를 마우스로 클릭하면 원래의 이미지를 화면에 확대출력, 대조할 수 있도록 설계해 즉시 수정할 수 있다.
또 자동인식기능이 매우 뛰어나 수백장의 문서를 한꺼번에 인식해도 종이 크기만 지정해두면 프리스캔(prescan)단계를 거치지 않고 한번에 문자를 해독해 낸다.
다양한 이미지를 지원한 점도 눈여겨 볼 만하다.
가장 많이 사용되는 PCX포맷 이외에 G3.G4.BMP.GIF.BIF.JPG 등 현재 사용중인 대부분의 그래픽 파일포맷을 지원했다.
총평 스피드리더는 문자인식시스템이 갖춰야할 핵심요소를 골고루 갖추고 있다.
OCR 프로그램의 핵심요건은 빠른 처리속도와 정확성이다. 스피드리더는 A4용지 한장을 인식하는데 10초도 안걸려 이분야에서 정상급 기술력을 과시했다. 인식률도 매우 98% 내외로 매우 높은 편이다. 한가지 서체로 구성된 프린 트물이나 소설류, 보고서 등을 인식하면 인식률이 더 높아진다. 특수문자도 50종이나 인식할 수 있도록 개선돼 특수한 내용을 담고있는 문서도 무리없이소화해낸다. 이밖에 OCR기능을 효과적으로 활용할 수 있는 유틸리티기능도 뛰어난 것으로평가됐다. 남일희 기자