인터넷 보급으로 인터넷 이용자는 개인정보나 저작물 등 데이터를 폐쇄된 공간이 아닌 공개된 웹페이지에 게재하는 것을 당연하게 생각했으며, 기업 역시 스스로 데이터를 생성하는 게 아니라 사용자제작콘텐츠(UGC) 기반 비즈니스 모델을 추구했다. 이때 공개된 웹페이지의 기능은 자신의 정보(개인정보, 저작물 등)을 남에게 '공개'하는 게 주된 목적이었다.
그런데 챗GPT 등 생성형 AI 보급으로 인공지능(AI)의 사회적 영향이 날로 커지고 있는 시대가 도래함에 따라, 수십년 축적된 공개된 웹페이지는 '공개'에 한정된 게재자의 의사에 반하여 AI 데이터의 대량 '수집·이용' 대상으로 변질되고 있다.
그러나 법적인 기준에서 보면 공개의 의사와 수집·이용 허락의 의사는 명백하게 구분돼야 하고, 이 구분의 노력 및 인식에서부터 모든 것이 출발해야 한다. 여기에서부터 AI 시대의 데이터 처리에 대한 해결책을 찾아야 한다.
공개의 의사와 수집·이용 허락의 의사를 구분하지 않는 사람과 이를 구분하는 사람이 있으면 이들간 법적 분쟁은 불가피하다. 일례로 두 명의 작가(폴 트렘블레이, 모나 어와드)는 6월 28일 챗GPT가 대규모언어모델(LLM) 학습 중에 자신의 저서를 무단으로 사용했다며 저작권 침해를 주장했고, P.M.의 약자를 사용한 익명의 정보주체 등은 챗GPT가 개인정보를 전례없이 대량으로 스크래핑해 무단으로 이용했다는 이유로 소송을 제기한 바 있다.
위 작가들과 정보주체의 주장을 요약하면, 자신들은 저작물이나 개인정보를 공개한 것이지, 수집·이용을 허락한 적은 없다는 것이며, 일견 타당한 면이 있다.
AI 활용 및 그에 따른 편의나 경제적 이익 등을 강조하는 기업은 이 기회에 공개된 웹페이지의 데이터에 대해 아예 옵트아웃으로 바꿔야 한다고 주장, 개인정보나 저작물 등의 공개의 의사를 개인정보나 저작물 등에 대한 수집·이용 허락의 의사로 전용해야 한다고 주장한다.
이 주장 역시 저작자나 정보주체의 의사에 반할 수 있기 때문에, 논란이 불가피하다. 과거 빅데이터 출현 때부터 이러한 주장은 반복됐지만, 오히려 빅데이터 시대 도래 이후 권리나 개인정보 보호는 더 강조되는 방향으로 역사가 진행된 바 있다.
지금 이 시간에도 웹페이지에는 이루 헤아릴 수 없는 대량의 저작물이나 개인정보 등이 게재되고 있으나, 이들이 과연 공개의 의사만 있는 것인지 아니면 수집·이용 허락의 의사까지 있는 것인지는 밝혀지지도 않았고, 밝히고 싶어도 자신의 의사를 밝힐 표준화된 도구 또는 AI와의 소통 도구도 존재하지 않는 실정이다.
AI 데이터는 앞으로 생성될 데이터가 경제성이나 최신성을 갖추고 있다는 점에서, 과거 축적된 데이터에만 의존할 게 아니라 앞으로 생성될 데이터에 대한 정책적 방향성을 강조할 필요성도 있고, 또한 이를 통해 AI 데이터 확보뿐만 아니라 법적 분쟁도 줄일 수 있다고 본다. 이런 견지에서 보면, 앞으로 생성될 웹페이지의 대량의 저작물이나 개인정보 등에 대해, 공개의 의사만 있는 것인지 아니면 수집·이용 허락의 의사까지 있는 것인지에 대한 표준화된 의사표시 도구의 도입을 추진하는 게 필요해 보인다.
그러나 옵트인 방식은 준수돼야 하는바 표준화된 의사표시가 없으면 공개의 의사만으로 봐야 할 것이고, 이미 게재된 웹페이지에도 표준화된 도구 보급에 힘씀으로써 법적 위험없는 데이터 확보에 주력하는 방향으로 정책이 추진돼야 할 것이다.
김경환 법무법인 민후 변호사