100년 혹은 1000년 후에 쓰여질 세계사 책에서도, 그 두께와 상관없이 2022 말의 챗GPT를 계기로 촉발된 인공지능(AI) 혁명이 담겨질 것이 분명하다. 그 만큼 거대언어모델(LLM)으로 대표되는 AI기술의 영향력은 사회 전반에 걸쳐 나타나고 있다. 인류가 오랜 기간 상상만 하던 능력이 현실화된 이 시점에서 우리는 도태되지 않기 위해 이 기술을 앞다퉈 적용하기도 하지만, 우리 문명의 질서를 지키기 위한 필수적 논의도 병행하고 있다.
이러한 논의 중에 하나는 저작권에 대한 것이다. 관련해 현재 두 건의 중요한 저작권 소송이 진행 중인데, 하나는 오픈 AI와 뉴욕타임즈 간의 소송이고, 다른 하나는 미드저니와 게티이미지 간의 소송이다. 소송의 결과는 AI 산업의 규제 방향을 설정하는 선언적 역할을 할 것이다.
생성형 AI 관련 저작권 이슈는 크게 두 가지로 나눌 수 있다. '학습데이터의 저작권 이슈'와 '생성형 AI 산출물의 저작권 이슈'가 그것이다. 두 번째 언급한 'AI 산출물의 저작권 이슈'는 AI 창작물의 저작권 인정 여부에 대한 것으로 사람의 창작성 개입 수준에 따라 어느 정도 합리적인 견해가 정립된 듯하다. 실제로 생성형AI 기술 향방을 결정지을 수도 있는 중요한 규제적 쟁점은 공개된 저작권 있는 텍스트와 데이터를 학습데이터(TDM:text data mining)로써 어디까지 활용할 수 있는가에 관한 것이다.
보수적인 관점에서 누군가의 저작물을 허락없이 사용하는 것은 문제가 있다고 단순하게 생각할 수도 있지만, 이런 관점에서의 저작권법을 무차별적으로 적용하면 기술혁신을 저해할 수 있으며, 이는 인류의 진보적 관점에서 퇴보가 될 수도 있다. 그래서 저작권에서는 '공정이용'이라는 개념이 있다. 이의 잘 알려진 예로는 네이버나 구글이 영리적 목적으로 검색 결과에 썸네일을 사용하는 경우다. 이는 저작권을 침해하는 행위지만, 이를 통해 더 많은 정보를 제공하고 공익적 목적으로 활용된다면 저작물을 이용을 허용하는 것이다. 우리의 법제도는 공공의 이익, 과학의 발전 등을 고려한 '공정이용'을 인정하는 방향으로 발전해 왔으며, 이는 AI의 경우에도 마찬가지다. 이 관점에서 볼 때, 최근 문체부의 '생성형AI 저작권 안내서'에 '학습데이터 사용에 대해…보상 등의 방법으로 적법한 이용 권한을 확보함'과 같은 권고는 저작권의 '공정이용'에 대한 그간의 논의를 다소 간과한 느낌이 있다.
TDM에 대한 논의는 단순히 저작권 인정에 대한 이해관계자들의 입장에서만 판단해서는 안되는 문제기도 하다. 앞서 언급한 것처럼, 기술발전을 통한 인류의 진보라는 거시적 측면뿐만 아니라 국가적으로는 다른 선진국들의 TDM에 대한 태도와 우리의 태도 차이로 인해 국제적 AI 경쟁력이 결정될 수 있다는 점까지도 고려해야 한다. 사실 각국은 AI시대의 주도권을 잡기 위해 공개된 저작물을 학습 데이터로 활용(TDM)하는데 상당히 적극적이다. 특히 일본의 경우는 2020년 시행된 저작권법에 따라 AI 가 학습에 활용한 저작물의 저작권을 침해할 '목적'을 가지지 않는다면 저작권 있는 정보라도 마음껏 학습에 활용하도록 허용하고 있다. 현재 계류중인 우리나라의 저작권법 개정안들도 비슷한 방향으로 ('사상이나 감정을 향유하지 않는' 이라고 전문적으로 표현되어 있다) 구성돼 있어 다소 안심이 된다.
지금의 AI 기술은 인간의 뇌를 모방했기에 학습을 통해 능력을 키운다. 사람이 태어나서 말을 배우고 숫자를 익히며 국어, 수학을 공부하고, 책을 읽으며 성장해 나가는 것과 비슷하다. 사람은 다양하게 공개된 저작권 있는 정보들을 두루 체험하고 섭렵하면서 사회의 일원으로서 역량을 가지게 된다. 마찬가지로 사람의 능력을 모방한 AI 기술이 공개된 데이터를 보고 학습하여 능력을 갖추는 것은 이 기술의 '타고난 숙명'이다. 어떻게 이 능력이 만들어 졌는가 보다는 학습하여 만들어진 능력이 기존의 가치를 침해하거나 오용되지 않도록 하는데 논의가 집중되기를 희망한다.
정상원 이스트소프트 대표·한국소프트웨어산업협회 서비스혁신위원장 bizway@estsoft.com