[AI스페셜 리포트]<9>AI 학습 데이터 활용에 관한 데이터 법제 개선 방향

[AI스페셜 리포트]<9>AI 학습 데이터 활용에 관한 데이터 법제 개선 방향

고환경 인공지능 법제도연구포럼 위원(법무법인 광장 변호사)

4차 산업혁명 시대는 클라우드 컴퓨팅, 빅데이터, 인공지능(AI) 기술 등과 같은 디지털 데이터 처리 기술들이 선도하고 있다. 그 중에서도 AI 기술은 2000년대 이후 컴퓨팅 파워의 성장, 알고리즘의 등장, 스마트폰의 보급 및 네트워크 발전에 따른 데이터 축적으로 급격히 진보했다. 앞으로는 인간의 지적 기능을 일부 대체할 만큼 비약적으로 발전할 것이 예상된다.

AI 기술 발전으로 견인되는 4차 산업혁명의 문명사적 변화는 단순한 기술 차원을 넘어 인문사회 등 국가와 사회 전반에 혁명적인 영향을 미칠 것으로 예상된다. 최근 코로나19로 인해 산업 환경이 언택트 환경으로 변화돼 그 속도는 더욱 빨라질 전망이다. 경제협력개발기구(OECD)도 4차 산업혁명 시대 디지털 변혁의 사회·경제적 영향을 분석하고, 관련 공공 정책적 방향을 제시하는 '고잉 디지털 프로젝트(Going Digital Project)'를 추진하고 있다. 2019~2020년에는 AI와 블록체인 등을 중심으로 위 프로젝트의 두 번째 단계를 추진 중이다.

4차 산업혁명, 특히 AI 기술 발전에 대해 논의할 때 데이터는 원유 또는 핵심자원으로 표현된다. AI 기술은 인간의 지적 기능을 일부 대행하거나 보완하는 것이 기술적 목표라는 점에서 인문학적 이해와 판단이 가능하도록 하기 위한 '양질의 학습 데이터' 확보가 매우 중요하다. AI가 학습하는 데이터가 제한적이거나 부정확하면 데이터 편향성으로 인해 AI 적용 기술의 안전성에 문제가 발생하거나 신뢰하기 어려운 결과를 초래할 확률이 높아진다.

최근 발표된 오픈AI의 GPT-3 알고리즘은 1750억개의 매개변수를 갖고 약 1조개에 가까운 단어로 이뤄진 데이터셋과 책에서 추출한 말뭉치, 영문 위키피디아 등을 통해 학습됐다. 이러한 양질의 학습데이터를 대량 확보함으로써 오픈AI는 인간이 작성한 글과 구별하기 어려운 수준의 글을 작성하는 것으로 평가받는 GPT-3 알고리즘을 완성할 수 있었다. AI 기술과 관련한 미국 기업의 괄목할 만한 성과는 개인 데이터의 활용과 유통이 자유로운 덕분이라는 지적이 많다.

◇AI 패권전쟁

AI 기술 발전을 위한 원천기술 개발 등 세계 각국의 AI 기술 패권 경쟁은 매우 치열한 상황이다. 미국 백악관은 2020년 5월 “중국이 자유롭고 개방적인 규칙에 기반한 질서”를 악용해 “국제 시스템을 자국에 유리하게 재정립하려고 한다”고 비난하는 전략 문건을 공개했다. 동시에 AI, 양자컴퓨팅 등 중국 기업이 첨단 기술을 획득하는 것을 방지하는 강력한 절차를 요구하고 있다. 이에 따라 미국 정부는 중국 전자 대기업 화웨이가 칩 제조에 미국 기술이나 기계를 사용하는 것을 차단하는 등 규제 조치를 취한 바 있다.

중국은 검색엔진 결과의 검열, 중국 당국에 사용자 데이터, 소스코드 등을 넘기는 것을 거부하는 국제 기업을 봉쇄하는 조치를 취했다. '메이드 인 차이나 2025' 같은 프로그램을 통해 '대량 혁신'을 육성하고 AI 등 전략 부분에 대한 보조금 증액 노력도 대폭 강화했다.

이처럼 최근 첨단 기술 영역에서도 미국과 중국을 중심으로 한 기술민족주의에 기초한 패권주의가 점차 강화되는 상황이다.

최근 정부는 디지털 뉴딜을 추진하면서 4대 분야 중 하나로 'Data-Network-AI(DNA) 생태계 강화'를 선정했다. 그 내용으로 '데이터 수집, 개방, 활용에서부터 데이터 유통 및 AI 활용에 이르기까지 데이터 전주기 생태계를 강화하고, 민관 합동 데이터 컨트롤타워 마련을 통해 데이터 경제 전환 가속화를 추진하겠다'는 의지를 밝힌 바 있다. 구체적으로 민간 데이터 산업 활성화 및 데이터 기반 서비스·정책 개발 지원을 위해 정밀도로지도, 안전·취약 시설물 관리 정보 등 공공데이터 개방과 연계를 확대한다. 2021년까지 개방 가능한 14만2000개 공공데이터 전체를 신속히 개방하고, 공동 빅데이터 분석시스템을 구축, 각 기관이 개별 시스템을 구축하지 않고도 타 기관 데이터와 연계·분석할 수 있도록 지원한다. 수요가 많고 기술적으로 구현 가능한(언어 말뭉치, 자율주행 영상데이터 등) AI 학습용 데이터를 2025년까지 1300종 추가 구축한다. 중소·스타트업의 AI 기술 개발·적용을 위해 학습용 데이터 가공 바우처를 기업에 제공해 일자리 창출과 AI 고도화를 지원할 계획이다.

◇개인정보 활용의 범위

하지만 우리나라의 지나치게 엄격한 개인정보 보호법제가 데이터 처리와 관련한 AI, 빅데이터, 클라우드 관련 기술 발전을 저해한다는 지적이 꾸준히 이어졌다. 우리나라 개인정보 보호법제는 OECD 주요 국가 대비 가장 규제가 높은 수준으로 평가되는 상황이다. 또 활용보다는 사전 동의 및 형사처벌 위주의 형식적인 규제가 중심이 돼 데이터를 활용하고자 하는 기업의 법적 불확실성과 위험이 큰 상황이다. 특히 지난 8월 개정 데이터3법이 시행되기 이전에는 프라이버시 침해 위험이 없는 새로운 서비스 개발이나 기능 개발을 위해 개인정보를 정보주체 동의 없이 활용하는 경우조차 개인정보를 최초 수집할 때 정보주체에게 고지한 목적과 다르다는 이유로 개인정보 보호법령 위반이 문제가 될 수 있는 상황이었다.

이를 해결하기 위해 개인정보 보호법을 개정해 개인정보를 당초 고지한 목적과 합리적인 관련성이 있는 범위에서 정보주체의 별도 동의 없이 이용 또는 제공할 수 있도록 개정했다.

특히 개정 개인정보보호법과 신용정보법은 EU GDPR를 참고해 '가명정보' 개념을 개인정보의 한 유형으로 새롭게 도입했다. 개정법에 따르면 과학적 연구 목적으로 정보주체의 동의 없이 가명정보를 이용·제공하는 것이 허용된다. 개정 전 개인정보 보호법에 의하면 비식별 조치를 통해 더 이상 개인정보에 해당하지 않는 이른바 '익명정보'에 대해서만 동의 규제가 배제됐다. 데이터 분석 기술이 급속도로 발전하면서 완전한 비식별 조치가 사실상 불가능하며 개인정보의 재식별 우려로 인한 법적 리스크로 인해 사업자들이 비식별 조치를 잘 활용하지 않았던 것이 그간의 실정이었다.

개정 개인정보보호법 및 신용정보법은 가명처리한 가명정보를 산업적 목적을 포함한 과학적 연구 목적으로 활용하도록 명시했다. 이에 따라 AI 기술과 알고리즘 개발 관련 연구를 위해 정보주체 동의 없이 개인정보를 가명처리한 후 가명정보를 AI 학습데이터로 활용하는 것이 가능하게 됐다.

가명처리를 통한 가명정보 활용이 산업적 목적의 과학적 연구를 위해 가능해진 것만으로는 AI산업 활성화의 필수조건이라고 평가되는 AI 학습 데이터가 충분히 확보될 것으로 기대하기는 어렵다. 우선 AI 학습데이터 확보 차원에서 필요한 정보는 대규모의 개인 데이터일 가능성이 크다. 개정 개인정보보호법에 따르면 산업 목적과 과학 연구를 위한 가명처리가 이뤄져야 AI 학습데이터의 확보가 가능하다. 이를 위해서는 가명처리 가이드라인에 따른 절차, 특히 가명처리의 적정성 평가 등을 위해 상당한 시간과 막대한 비용이 소요될 수밖에 없다. 특히 개인정보보호법은 가명정보의 처리 중 개인을 식별할 목적으로 가명정보를 처리하는 행위 또는 재식별될 가능성이 있는 가명정보의 활용 등에 대해 형사처벌 내지 전체 매출액의 3% 이하 과징금 등 엄격한 법적 제재를 예정하고 있다.

개정 개인정보보호법은 '개인정보처리자는 가명정보를 처리하는 과정에서 특정 개인을 알아볼 수 있는 정보가 생성된 경우에는 즉시 해당 정보의 처리를 중지하고, 지체 없이 회수·파기해야 한다'고 규정하고 있다. AI를 통한 대규모 디지털 데이터를 학습데이터로 분석하면 그 과정에서 특정 개인을 식별할 수 있는 정보에 대한 즉각적인 처리 중지·파기 기능을 함께 구현해야 하는데 이를 기술적으로 구현하는 것이 가능한지도 의문이다.

2019년 7월 중소벤처기업부가 경기도 판교 스타트업 캠퍼스에서 '규제자유특구 쟁점규제, 개인정보보호 이슈 관련 전문가 포럼'을 개최했다. 전문가로 참석한 손주찬 한국전자통신연구원 책임연구원은 “자율주행자동차를 통해 자동수집한 영상정보 등에 기록된 차량번호판 등의 개인정보를 비식별하기 위해 프로그램을 활용하더라도 정확도가 95% 미만이며, 시속 60㎞로 주행하며 333일 동안 10만㎞ 길이의 영상 데이터를 비식별화하는 데 드는 비용은 대략 1800억원으로 추산된다”고 밝혔다. 자율주행에 필요한 AI 학습을 위한 데이터를 마련함에 있어 비식별처리에 드는 비용이 천문학적이라는 이야기다.

◇각국의 저작권법 개정 현황은

4차 산업혁명 시대에 있어 일상화되는 대규모 디지털 데이터 처리와 관련한 AI 학습에 대해서는 단순 학습행위와 관련된 경우 접근통제, 암호화 등 일정한 기술·관리적 보호조치를 전제로 가명처리 없이 개인정보를 활용하도록 하는 방안을 고려할 필요가 있다. 즉 인간이 개별 데이터 처리에 개입 또는 관여하지 않고 AI의 데이터 학습 목적으로만 활용하는 경우에는 가명처리 없는 개인정보의 활용을 허용하는 방안을 고려할 필요가 있다.

AI 학습 데이터 확보 차원에서 디지털 저작물 활용과 관련해 세계 각국이 유사한 관점에서 저작권법 개정을 적극 추진하는 점을 참고하는 것도 도움이 된다.

영국은 비상업적 연구 목적의 텍스트·데이터 분석을 위한 복제를 허용하고 있으며, EU는 '디지털 단일시장 저작권지침'에서 과학적 연구 목적의 텍스트·데이터 마이닝 등을 허용하고 있다.

일본은 2018년 5월 저작권법 개정을 통해 기술개발을 위한 시험 등 당해 저작물에 표현된 사상 또는 감정을 스스로 향수하거나 타인이 누리게 하는 것을 목적으로 하지 않는 경우에는 그 필요가 인정되는 한도에서 저작물을 이용할 수 있도록 하고 있다. 전자계산기를 사용해 정보를 검색하거나 정보를 분석해 그 결과를 제공하는 자는 공중에의 제공 또는 제시가 이뤄진 저작물에 관해 그 행위의 목적상 필요하다고 인정되는 한도에서 당해 행위에 수반해 경미한 이용 등을 할 수 있도록 하고 있다.

우리나라 역시 2006년 이후 14년 만에 저작권법 전부 개정을 추진하고 있다. 주요 내용 중 하나로 AI 학습(딥러닝)과 빅데이터 분석 등을 위해 저작물의 이용이 필요하다고 인정되는 범위 내에서 저작물의 이용 허락을 받지 않아도 되도록 허용하는 조항을 신설하고자 시도한다.

◇데이터3법 개정에 머물러선 안돼

데이터3법 개정으로 데이터의 보다 자유로운 활용에 관한 진전이 있었다고 평가된다. 여전히 데이터3법은 형식적인 사전 동의 규제를 원칙으로 하는 등 기본적으로 4차 산업혁명 이전 오프라인을 통한 개인정보 처리를 전제로 하는 규제 프레임을 그대로 유지하고 있다.

개인정보 자기결정권에 기초한 기존 접근 방식은 개인정보의 이용 형태, 범위 등이 날로 복잡해지는 현 상황에서 정보주체에게 모든 의사결정을 스스로 하도록 하는 부담으로 작용할 뿐 아니라 정보주체에게 책임이 전가되는 역설적 결과로 이어진다.

따라서 개인데이터의 디지털 전환, 빅데이터, AI 등과 같은 데이터 처리 기술의 본격 확산 등 4차 산업혁명을 전제로 한 개인정보 보호법제로의 근본적인 패러다임 전환은 불가피해 보인다. 4차 산업혁명 시대 개인정보 보호법제는 형식적인 사전 동의 규제를 합리적으로 개선하고 데이터 활용에 대한 기업의 투명성을 제고하는 방향이어야 한다. 또 법 위반에 대해 형사처벌 위주였던 관련 규정을 기업에 대한 금전적 제재인 과징금 규정으로 변경하는 한편, 개인정보처리자에게 개인정보 처리에 있어 서비스 내지 제품 설계 단계부터 프라이버시 보호 의무를 부담하도록 그 내용을 전반적으로 개선하는 것이 중요하다.

AI 학습데이터의 활용에 관한 사항도 위와 같은 4차 산업혁명 시대의 새로운 패러다임에 맞춰 개정하는 것이 반드시 필요할 것으로 생각된다. 세계 각국과의 AI 기술 패권경쟁에서 뒤처지지 않기 위해서는 데이터3법의 개정에 만족해서는 안 되며 기존의 낡은 패러다임을 벗어나 4차 산업혁명 시대의 새로운 데이터 처리 기술을 반영한 개인정보 보호 법제의 전면적 개정을 서둘러야 한다.