[기고]빅데이터 시대, 수많은 데이터는 누구의 것인가

이정수 플리토 대표
이정수 플리토 대표

인공지능(AI)은 데이터를 바탕으로 기계학습 등 방식을 통해 특정 결과를 끌어내는 기술이다. 이때 정확도가 낮은 데이터를 학습시킨다면 오류 많은 AI가 될 수밖에 없다. 즉 데이터는 AI에 학습 교재이다. AI의 정확한 정보 처리를 위해서는 데이터 정확도가 관건이다.

우리의 언어를 이해하고 처리하기 위한 자연어 처리 기술을 위해 언어 데이터는 학습 데이터의 기본이다. 이러한 데이터는 어떻게 수집할 수 있을까. 일각에서는 “금융·의료 데이터와 달리 개인정보와는 관련 없는 언어 데이터라면 수많은 웹사이트에서 누구나 쉽고 빠르게 수집할 수 있겠다”고 말한다. 그러나 이는 데이터 '권리'를 간과한 것이다.

데이터 개인정보 보호 및 침해 방지와 관련해서는 비식별화 등 기준이 마련되고 의식도 높아지고 있지만 데이터 소유권 등을 포함한 저작권에 대한 인식은 여전히 낮다. 인간의 사상이나 감정을 표현한 창작물이 아닌 '비저작물'이나 국가 또는 지방자치단체가 공표한 저작물인 '공공저작물'에 대해서는 예외이지만 대부분의 저작물은 복제, 전송 등 행위를 위해 저작권자의 동의를 받아야 한다. 이 때문에 웹 또는 애플리케이션(앱)과 같은 온라인 플랫폼에서 데이터를 수집할 때는 저작권 침해 문제가 발생하기 쉽다.

'저작권' 문제로 사실상 우리가 웹사이트에서 매일 보거나 듣는 '언어' 관련 데이터는 자유롭게 활용하기 어렵다. 예를 들면 우리가 인터넷으로 보는 뉴스의 일반 보도기사나 칼럼은 저작권자가 해당 언론사·기자이기 때문에 무단으로 수집할 수 없다. 블로그나 페이스북 등 소셜미디어 콘텐츠도 허가 없이 상업에 활용할 경우 저작권법에 위반된다.

유럽연합(EU)에서는 데이터 수집을 말하는 텍스트 마이닝 및 데이터 마이닝에 대한 저작권 문제를 인식하고 가장 이르게는 2014년에 영국에서부터 관련법을 도입했다. 국가마다 세부 내용은 다르지만 대부분 학문 연구 목적, 공공 목적으로는 텍스트 및 데이터 마이닝을 허용한다. 그러나 상업 목적으로는 대체로 데이터에 저작권법을 적용하고 있다.

국내 데이터 산업은 초기 성장 단계이다 보니 저작권이나 소유권에 대한 법 제도나 윤리 기준이 아직 마련돼 있지 않다. 데이터를 무차별 수집하는 경우도 많다. 경쟁사 서비스 데이터베이스(DB)를 무단 크롤링하고 자사 서비스에 활용해서 저작권법상의 권리를 침해한 크롤링 범죄 사례가 증가한다는 점은 데이터 활용 인식이 부족하다는 실태를 여실히 드러낸다.

이러한 문제를 보완하기 위해 최근 국정현안점검조정회의에서 '제1차 신산업 규제정비 기본계획(2021~2023)'을 발표했다. 5대 분야 20대 주요 신산업을 선정해 관련 규제 집중 정비, 불확실성 해소를 목표로 하는 이 계획에는 이른바 'DNA(데이터·네트위크·인공지능) 산업'인 빅데이터, AI, 지능형 로봇 등도 포함됐다.

우리는 데이터가 곧 자산인 '데이터 경제 시대'에 접어들었다. AI의 핵심은 바로 '데이터'인 만큼 기술 발전을 위해 학습용 데이터 수집·저장·처리 과정은 필연으로 수반된다. 또 데이터 활용 범위 또한 상업용으로 넓어진 만큼 데이터에 대한 인식 제고와 저작권에 대한 이슈도 더욱 심도 있게 다뤄져야 한다. 과잉 규제나 낡은 규제를 혁신함과 동시에 데이터 산업의 거래 활성화를 위해 데이터 권리에 대한 논의는 필수며, 데이터 제공에 대한 규정과 보상 체계 방안 또한 검토가 필요하다.

이정수 플리토 대표 simon@flitto.com