텍스트, 오디오, 이미지 등 기존 콘텐츠를 활용해 유사한 콘텐츠를 새롭게 만들어 내는 인공지능(AI) 기술을 가리키며 제너레이티브(generative) AI라고 이른다.
기존 AI가 데이터와 패턴을 학습해서 대상을 이해했다면 생성형 AI는 기존 데이터와 비교 학습을 통해 새로운 창작물을 탄생시킨다. 즉 콘텐츠의 생성자와 만들어진 콘텐츠를 평가하는 판별자가 끊임없이 서로 대립하고 경쟁하면서 새로운 콘텐츠를 만들어 낸다. 이를 통해 현실에 있을 법한 새로운 콘텐츠가 탄생하게 된다.
이미지 분야에서는 특정 작가의 화풍을 모사한 그림으로 사진을 재생성하거나 가짜 인간 얼굴을 무제한으로 생성할 수 있다. 음성 분야에서는 특정 장르의 음악을 작곡하거나 특정 노래를 원하는 가수의 음색으로 재생성할 수 있다. 텍스트 분야에서는 특정 소재로 시를 짓거나 소설을 창작할 수 있다. 이 같은 결과물은 쇼핑, 영화, 광고 등 산업에서 활용된다.
최근에는 글로 명령하면 이를 이미지나 비디오로 변환시키는 생성형 AI가 대두되고 있다. 메타는 문장을 입력하면 비디오로 만들어 주는 '메이크 어 비디오'(Make a video) 서비스를 선보였다. 구글도 텍스트를 동영상화하고 영상 콘텐츠를 생성할 수 있는 AI 비디오 생성기 이메진 비디오(Imagen video)를 공개했다.
생성형 AI 기술에는 기계학습 모델 가운데 생성 모델(generative model)이 사용되며, 대표적인 생성 모델로는 오토인코더(autoencoder)와 생성적 대립 신경망(GAN: Generative Adversarial Network)이 있다.
생성형 AI 분야에서 사회적 이슈로 대두되고 있는 것은 '인물 합성 기술(deepfake)'이다. 정치인의 선동 영상, 연예인 등 특정 인물로 조작된 가짜뉴스나 음란물 등에 악용될 수 있다. 이로 인한 사회문제는 AI 관련 윤리적 문제 관련 경각심과 사회적 합의 관련 쟁점을 일으키고 있다.
정예린기자 yeslin@etnews.com