한국과학기술정보연구원(KISTI·원장 한선화)은 전자문서(PDF)에 포함된 개인정보만을 자동 식별, 제거하는 기술을 개발했다고 8일 밝혔다.
이 기술은 전자문서에서 개인정보인 주민등록번호, 이메일, 전화번호, 주소, 금융정보 등을 정규 표현식(Regular Express)을 이용해 검출한다. 검출한 정보는 유효성 검증을 거쳐 제거하거나 마스킹할 수 있다.
현재 이 기술은 KISTI가 국가연구개발사업 보고서원문 DB 구축에 활용하고 있다.
지난해엔 한국연구재단 등 19개 기관에, 지난 3월엔 한국기초과학지원연구원 등 6개 기관에 무상으로 기술이전, 활용하고 있다.
연구진은 이 기술이 상용화되기 위해서는 “PDF, HWP 포맷을 확장해 MS-워드나 ODF, XML 포맷에 대한 기술 개발이 필요하다”고 설명했다.
신용주 R&D시스템개발실 책임연구원은 “전자문서 형태의 정보 공개가 필요한 기관에서 필요한 기술”이라며 “상용화를 위해서는 추가 기술개발이 필요하다”고 말했다.
대전=박희범기자 hbpark@etnews.com