개보위, 공개된 데이터 처리 안내서 공개…“정당한 이익 명백해야”

ⓒ게티이미지뱅크
ⓒ게티이미지뱅크

정부가 생성형 인공지능(AI) 모델 개발 시 활용되는 '인터넷상 공개 데이터'를 안전하게 처리할 수 있는 기준을 내놨다.

개인정보처리자가 '정당한 이익'을 달성하기 위해 명백하게 정보주체 권리보다 우선하고 합리적 범위를 초과하지 않을 시 공개된 정보를 AI 개발에 활용할 수 있다.

개인정보보호위원회는 'AI 개발·서비스를 위한 공개된 개인정보 처리 안내서'를 공개했다.

공개 데이터는 말 그대로 인터넷상 널려 있는 누구나 합법적으로 접근할 수 있는 데이터다. 챗GPT 등 생성형 AI를 개발하기 위한 학습데이터의 핵심 원료로 쓰인다. AI 기업은 커먼크롤(common crawl), 위키백과, 블로그, 웹사이트 등에 있는 공개 데이터를 웹 스크래핑 등 방식으로 수집해 AI 학습에 활용하고 있다.

문제는 공개 데이터에 여러 개인정보를 포함될 수 있어 국민 프라이버시가 침해될 우려가 크지만, 현행 개인정보보호법엔 공개된 개인정보 처리에 적용될 수 있는 명확한 기준이 없다는 점이다.

개인정보위는 안내서 마련을 위해 AI 프라이버시 민·관 정책협의회를 중심으로 논의를 진행하는 한편 학계·산업계·시민단체와도 의견수렴을 병행했다. 또 유럽연합(EU), 미국 등 국제적으로 상호운용성 있는 기준 마련에 중점을 뒀다.

개인정보보호법에 명신되 '정당한 이익' 적용을 위한 세 가지 요건.(개인정보보호위원회 제공)
개인정보보호법에 명신되 '정당한 이익' 적용을 위한 세 가지 요건.(개인정보보호위원회 제공)

먼저, 개인정보보호법에 따른 '정당한 이익' 조항을 근거로 공개된 개인정보를 AI 학습·서비스 개발에 활용할 수 있다는 점을 분명히 했다. 이를 적용하기 위해선 AI 개발 목적의 정당성, 공개된 개인정보 처리의 필요성, 구체적 이익형량이라는 세 가지 요건을 충족해야 한다.

구체적으로 공개된 개인정보 처리를 통해 개발하려는 AI 목적·용도를 구체화해 정당한 이익을 명확히 해야 한다. 또 공개된 개인정보 수집·이용 필요성과 합리성 등이 인정돼야 하며, 개인정보처리자의 정당한 이익이 정보주체 권리보다 명백히 우선돼야 한다.

또 안내서엔 AI 기업이 고려할 수 있는 기술적·관리적 안전성 확보조치와 정보주체 권리보장 방안도 담았다.

인공지능 기업이 '정당한 이익'을 근거로 공개된 개인정보를 처리하기 위해 고려할 수 있는 기술적·관리적 안전성 확보조치와 정보주체 권리보장 방안.(개인정보보호위원회 제공)
인공지능 기업이 '정당한 이익'을 근거로 공개된 개인정보를 처리하기 위해 고려할 수 있는 기술적·관리적 안전성 확보조치와 정보주체 권리보장 방안.(개인정보보호위원회 제공)

개인정보위는 안내서를 지속 업데이트하고, 이용자 개인정보의 적법한 처리 근거와 기준 등에 대해 학계, 산업계, 시민단체 등의 의견수렴을 거쳐 구체화해 나갈 방침이다.

고학수 개인정보위 위원장은 “AI 개발의 핵심 관건인 공개 데이터 학습이 개인정보보호법에 비춰 적법하고 안전한지는 공백인 상황이었다”면서 “국민이 신뢰하는 AI·데이터 처리 관행을 기업 스스로 만들어 나가고 축적된 모범사례가 안내서에 지속 반영될 수 있기를 기대한다”고 말했다.

조재학 기자 2jh@etnews.com

AI