LG CNS가 서울 시민의 생활 특성을 담은 가상의 '합성데이터(재현데이터)'를 성공적으로 생성해 본격 서비스 제공에 나섰다.
LG CNS가 생성한 '서울시민 라이프스타일 재현데이터'는 서울시 오픈 플랫폼인 빅데이터캠퍼스에 공개됐다.
LG CNS는 주민등록자료, 건축물대장, 민간 3사(신용정보회사, 카드사, 통신사) 정보로 제작된 가명결합 데이터를 기반으로 합성데이터를 생성했다. 이 합성데이터는 원본 데이터의 통계적 특성을 유지하면서도, 개인식별 위험 없이 데이터 활용 가치를 유지하는 것이 특징이다.
이번 서울시 합성데이터 생성 사업은 가명정보와 합성데이터와 관련해 높은 전문성을 필요로 했다. LG CNS는 결합된 가명정보를 기반으로 합성데이터를 생성해 데이터 활용성과 안전성을 강화했다.
가명정보는 안전하고 유용한 개인정보 활용 방안이지만 정해진 목적과 제한된 취급자만 정보를 활용할 수 있는 제약이 있었다. 이번에 LG CNS가 생성한 서울시 합성데이터는 충분한 안전성을 확보해 누구나 자유롭게 활용 가능하다.
유관기관들은 서울시 합성데이터를 활용해 정책연구 사전설계를 진행할 수 있다. 시민들은 데이터 분석 실습 등을 더 활발하게 진행할 수 있다.
LG CNS는 대규모의 고품질 합성데이터를 생성했다. '서울시민 라이프스타일 재현데이터'는 범주형 데이터와 수치형 데이터가 공존하는 정형데이터다.
'서울시민 금융현황'과 '서울시민 소비 및 이동 패턴' 등 두가지 주제로 데이터세트가 제공된다.
'서울시민 금융현황' 데이터는 약 65개 변수, 약 740만건 합성데이터로 이뤄져 있다. 이 합성데이터를 활용하고 싶은 기관과 시민들은 빅데이터캠퍼스에서 성별, 생년월일, 직업, 추정연소득, 자산금액, 대출잔액 등 약 65개의 변수를 조합해 서울 시민의 금융 현황 데이터를 분석할 수 있다.
황윤희 LG CNS 상무는 “모든 분야에서 개인정보 보호와 데이터 활용에 대한 중요성이 더욱 커질 것”이라며 “고객들이 LG CNS의 가명정보 결합, 합성데이터 역량을 통해 새로운 비즈니스 인사이트와 기회를 얻을 수 있도록 서비스를 확대할 계획”이라고 말했다.
박두호 기자 walnut_park@etnews.com