지란지교데이터는 데이터 3법, 즉 '개인정보보호법' '신용정보법' '정보통신망법 개정안' 시행 이후 활성화되는 데이터 활용 및 비식별화 시장을 공략하고자 2021년 2월, 개인정보 비식별조치 솔루션 '아이디필터'를 출시했다.
아이디필터는 관리자가 사전에 등록한 민감·개인정보 패턴을 기반으로 개인정보를 빠르게 탐지·비식별화한다. 데이터 분포도·위험도 시뮬레이션을 통해 활용 데이터의 재식별 방지를 위한 후속 조치도 가능하다. 딥러닝 기반으로 비정형 텍스트를 분석, 문서 맥락을 인지하고 개인정보를 인식해 비식별 처리할 수 있다.
지란지교데이터가 개인정보보호 솔루션 제품군 '필터 시리즈'로 축적한 16년 이상 개인정보 탐지 기술이 집약됐다. 아이디필터는 출시 이전부터 '2020 빅데이터 구축 사업'에서 비식별화 엔진으로 활용됐다. 모비젠 등 다수 빅데이터 분석 전문 기업이 활용하고 있다. 아이디필터를 도입한 국립암센터가 의료분야 가명정보결합전문기관으로 지정됨에 따라 의료분야 데이터 비식별화 및 결합 시장에서 아이디필터 수요가 빠르게 증가할 것으로 전망된다.
지란지교데이터가 아이디필터에 적용한 '딥러닝(DL) 기반 비정형 텍스트 내 개인정보 탐지 및 비식별 처리 기술'은 조직이 보유한 비정형 텍스트를 딥러닝으로 학습 및 분석해 맥락을 인지함으로써 개인정보를 인식한다. 예를 들어 '은·는·이·가'라는 조사 앞에 위치하는 주어, '을·를' 앞에 있는 목적어 등 맥락을 분석해 주어·목적어에 포함된 개인정보를 식별한다. 인식된 개인정보는 안전하게 비식별 처리된다.
기존 비식별 처리 기술의 경우 패턴 기반이다. 비정형 텍스트 처리 때 개인정보 오인식이 발생할 가능성이 있다. 아이디필터에 적용한 기술은 문장·대화 맥락을 인지함으로써 개인정보 인식을 보조하기 때문에, 기존 기술의 단점을 보완할 수 있다.
인공지능 모델 학습에 효과적인 재현데이터(Synthetic Data) 생성 기술도 적용됐다. 재현데이터는 원본 데이터와 유사한 형태의 통계적 속성을 지닌 데이터를 의미한다. 원본 데이터를 바탕으로 가상의 데이터를 생성함으로써 원본 데이터 활용으로 인한 개인정보 침해를 예방할 수 있다. 또 통계적 속성을 지닌 가상의 데이터를 생성하기 때문에 인공지능 모델 학습량을 늘리는 데 효과적이다. 이에 차세대 개인정보보호 및 데이터 활용 기술로 주목받고 있다.
광학문자인식(OCR) 기술은 다양한 유형의 이미지에 포함된 문자를 편집 가능한 데이터로 변환하는 기술이다. 지란지교데이터가 보유한 딥러닝 기반 OCR 기술 특징은 △AI 기반 정확한 문자 인식 △다각도 이미지 인식 △다양한 이미지 파일 포맷 및 문서 내 이미지 지원 △해상도 처리 △고속 이미지 검출 처리 등이다. 최근에는 △다양한 전처리 기법 지원(이미지 트림, 이미지라인 제거, 이미지 이진화, 회전보정, 노이즈 제거, 사이즈 조정 등) △딥러닝을 이용한 텍스트 객체 감지 및 텍스트 객체 인식 기법 적용 등 업그레이드를 지속하고 있다.
딥러닝 기반 OCR 기술은 주민등록증 등 정형화된 이미지 파일에서의 데이터 변환은 물론, 수기로 작성된 문서도 데이터 변환이 가능하다. 특히 필기체 인식은 오래 보관된 공문서, 의료 진단서 등 수기로 작성된 문서를 데이터화하기 위한 기술로 각광 받으며 시장에서 수요가 빠르게 증가하고 있다.
최근 지란지교데이터는 아이디필터 기능 향상에 초점을 맞추고 있다. DL 기반 비정형 텍스트 민감·개인정보 탐지 기술 △전용 송수신 에이전트를 통한 원본데이터 및 비식별 데이터 암호화 업로드·다운로드 △사전 결합 △시계열 분석 △다양한 데이터 입출력 개선을 통해 데이터 이동 처리 기능 향상(PC, 스토리지, SFTP, DB) △K-익명성 측정 △사전·사후 개인정보 검사 △비식별 조치 알고리즘 확대 등 기능 업그레이드를 지속하고 있다.
조원희 지란지교데이터 대표는 “개인정보 비식별 조치 솔루션 아이디필터가 우수 정보보호 기술에 지정돼 개발자 노력과 기술력을 인정 받았다”며 “개인정보보호전문기업으로서 전방위적 개인정보보호를 위한 기술 개발을 지속하겠다”고 말했다.
최호기자 snoop@etnews.com