오픈SNS, 자동 익명화 기술로 빅데이터 활용도 높여

실시간으로 쏟아지는 데이터를 어떻게 다루느냐에 따라 ‘빅데이터’가 ‘황금’이 될 수 있는 시대가 왔다. 이에 따라 기업들은 빅데이터와 분석 관련 부문을 강화하고 있으며 기업뿐만 아니라 정부에서도 ‘빅데이터 분석 활용’을 주요 정책으로 삼았다.

이런 가운데 지난해 안행부 ‘빅데이터 공통기반 및 시범과제 구축’ 사업에 참여하여 성공적으로 수행한 오픈SNS(대표이사 배복태, www.opensns.co.kr)는 대법원 ‘민사 판결서 공개시스템 구축’ 사업과 한국과학기술정보연구원(이하 KISTI)의 ‘과학기술 콘텐츠 고부가가치화를 위한 개체식별 데이터 구축’사업(이하 개체 식별 사업’)을 잇따라 수주했다고 밝혔다.



대법원 ‘민사 판결서 공개시스템 구축’사업은 오픈SNS가 지난 2010년부터 이미지 PDF 판결서와 HWP 형사 사건 판결서를 대상으로 ‘자동 익명화 기술’을 적용하여 구축해 온 시스템의 연장선에서 수주한 사업이다. 여기서 ‘자동 익명화 기술’이란 판결서 등에 기재되어 있는 주민번호, 차량번호, 카드번호 뿐만 아니라 사건 당사자 및 관계자의 성명과 별명, 이해관계가 엮여 있는 범죄 발생 장소의 명칭, 주소 등을 식별기호로 대체하여 실명을 파악할 수 없도록 자동으로 변화해 주는 기술을 말한다.

특히나 판결서의 경우 1심에서 3심까지 사건 당사자들의 일관성 유지가 필수적이므로 각 심급별 익명화 대상 정보에 대한 일관성 있는 자동화 처리가 필수적이다. 또한 이와 같은 자동 익명화 기술은 향후 더욱 빈번해질 것으로 예상되는 공공 기관의 정보 공개 요청 시의 개인 정보 보호 요구에 대한 기술적인 대응책이 될 것으로 생각된다.

한편 KISTI의 ‘개체 식별 사업’은 국내외 논문의 저자, 발행기관 및 주요 키워드를 중심으로 특허, 연구보고서의 저자 및 소속 기관, 주요 키워드 등을 자동으로 식별하여 동명이인 및 이형동인에 대한 정보의 정확성을 높이는 것을 주요 골자로 하는 사업이다. 이 사업의 의의는 산재한 비정형 텍스트 정보로부터 정확한 정보를 찾을 수 있는 기반을 제공하는 데 있으며, 주요 적용 기술로는 비정형 텍스트 데이터의 정형화 가공 처리 기술과 클러스터링 기반의 개체 식별 기술 등이 있다.

㈜오픈SNS 관계자는 “서로 달라 뵈는 두 가지 사업은 빅데이터 사업의 난제 중 하나인 비정형 텍스트의 가공이라는 측면에서 일맥상통하는 기술”이라며, “이번 오픈에스앤에스가 출시한 빅데이터 관리솔루션인 HEMON(헤몬)과 더불어 향후 빅데이터 관련 사업의 성패에 중요한 영향을 미칠 것으로 예상된다”고 밝혔다.

관련한 상세한 내용은 오픈에스앤에스의 XTEN(엑스텐) 검색엔진 홈페이지인(xten.opensns.co.kr)에서 확인할 수 있다.

온라인뉴스팀