[IT키워드]OCR

발행일 : 2006-09-19 13:51 지면 : 2006-09-19 26면

　OCR(Optical Character Reader)는 키보드로 입력할 필요 없이 종이 위에 인쇄된 문자를 간단히 스캐닝함으로써 수정·편집이 가능한 텍스트 파일로 전환시켜 주는 장치다. 문자 부분과 종이의 흰 부분 반사광이 다른 것을 이용해 문자를 판독하는 기술.

　초기에는 객관식 시험지의 판독 기능에 머물렀지만 점차 영어·한글·숫자·기호 등은 물론이고 손으로 쓴 문자까지 인식하는 지능형 OCR도 개발중이다. 최근 웹 검색 열풍과 함께 서적·논문 등 인쇄물을 검색 가능한 디지털 문서로 바꾸는 데 OCR가 핵심적인 기반 기술로 떠오르면서 다시 관심을 끌고 있다. 이런 가운데 구글은 전 세계의 인쇄정보를 디지털화하는 전자도서관 사업을 지원하기 위해 HP가 10년 전에 폐기한 구형 OCR 제품의 개량작업에 나서기도 했다. 전문가들은 오래된 고문서나 다양한 컬러, 다국어 폰트로 인쇄된 종이문서를 정확히 인식하는 OCR가 등장하면 사무용 OA시장을 넘어 출판업계와 웹 검색 시장의 향방에도 큰 영향을 미칠 것으로 예상하고 있다.

IT키워드