인공지능(AI) 챗봇 '이루다' 사건이 이용자 집단소송 등 가열 양상을 띠는 가운데 스캐터랩이 과거 개발한 '텍스트앳' 서비스도 논란에 휩싸였다. '텍스트앳'에 제공된 데이터도 '이루다'에 활용된 것이 아니냐는 이용자 의혹이다.
'텍스트앳'은 2013년 출시된 감정분석 서비스다. 이루다 학습에 사용된 '연애의 과학' 서비스처럼 카카오톡 대화를 바탕으로 한다. 김종윤 스캐터랩 대표는 “이용자 10만명이 제공한 6억건 실제 대화 데이터를 확보해 텍스트앳을 만들었다”고 발언한 바 있다.
이루다 논란이 커지면서 텍스트앳에 제공된 카카오톡 대화도 AI 학습에 무단 활용된 것이 아니냐는 의혹이 제기된다. 한 이용자는 “2013년부터 텍스트앳을 이용했는데 개인정보 유출 우려에 한숨도 자지 못했다”면서 “업체 측 사과문과 질의응답에는 텍스트앳에 관한 언급은 전혀 찾아볼 수 없다”고 지적했다.
실제로 스캐터랩이 논란 이후 여러 차례 내놓은 입장문에서 텍스트앳은 전혀 언급되지 않았다. 스캐터랩 관계자는 텍스트앳에 수집된 데이터도 이루다 학습에 활용됐는지에 관해 “해당 질의에 관해 사실 확인 중”이라면서 “확인을 마치는 대로 알리겠다”고 말했다.
스캐터랩이 AI 모델 개발을 위한 내부 테스트 샘플을 깃허브에 오픈소스로 공개한 사실이 드러나면서 우려가 증폭되기도 했다. 이에 관해 회사 측은 “한국어 자연어처리(NLP) 기술 개발과 공유를 위한 것이었으나 데이터 관리에 신중하지 못했다”면서 “민감 정보가 포함된 대화 패턴이 노출된 점에 대해 사과한다”고 과실을 시인했다.
스캐터랩에 의한 개인정보 유출 피해를 주장하는 이용자들은 업체 측이 보유한 데이터 전량 파기를 요구하고 나섰다.
스캐터랩은 비식별화 처리를 거친 1억개 문장만을 데이터베이스로 구축했다고 해명했지만 해당 비식별화 조치가 적절했는지에 관해 의문이 남는다.
한 보안 전문가는 “개정 개인정보보호법이 시행(지난해 8월 5일)되기 전에는 목적 불문 개인정보 활용이 불가했던 만큼 서비스 개발 시 개인정보를 모두 식별하고 제거했어야 했다”면서 “아파트 동·호수 등 상세 정보가 노출됐다는 건 해당 조치가 미흡했다는 것”이라고 설명했다.
그는 “비식별 조치는 절차에 따라 개인정보를 명확히 식별하고 목적에 따라 적정성 평가를 받은 뒤 활용해야 한다”면서 “이용자 동의를 받았다면 동의 범위가 어디까지인지 명시적 동의를 받았어야 하고 개인정보 제거를 위한 정교한 필터링 등 기술적 조치도 뒷받침됐어야 한다”고 덧붙였다.
윤덕상 파수 전무는 “이번 사건은 스타트업, 중소기업 등 영세업체에 AI 학습용 데이터가 부족해서 발생한 문제로 보인다”면서 “카카오톡 대화, 음성 등 비정형 데이터에 대한 개인정보 이슈와 기법, 용도 등에 관해 기준을 마련하고 필요 시 정부가 학습 가이드 등을 제공하는 방안 마련이 필요하다”고 말했다.
개인정보보호위원회와 한국인터넷진흥원(KISA)은 스캐터랩이 개인정보보호법을 위반했는지 여부를 두고 현장 조사에 착수한 상태다.
개인정보 유출 피해를 주장하는 스캐터랩 이용자들은 근거자료를 수집하며 집단소송을 준비하고 있다.
오다인기자 ohdain@etnews.com