마릴린 먼로가 유명한 팝싱어처럼 노래도 잘한다면 어떻게 될까.
미 매사추세츠주 공대(MIT) 연구진이 편집한 비디오 클립은 마릴린 먼로가 디오의 ‘헌터(Hunter)’를 부르는 장면을 보여준다. MIT 연구팀은 인공 지능과 비디오 촬영기술을 결합해 꿈 같은 먼로의 이 비디오 클립을 제작했다. 죽은 이의 입을 빌려 특정인의 말이나 노래를 재현한 이 초현실적 기술을 창안한 MIT 박사후 과정 토니 F 에자트는 “죽은 유명 인사에 이 기술을 적용하는 것은 정말 흥분된다”고 밝혔다. 디지털 비디오 기술을 이용한 이런 합성 비디오는 과거와 현재의 경계를 넘나드는 것을 가능하게 하나 다른 한편으로는 특정인의 말하고 노래부르는 것은 물론 모든 동작을 조작함으로써 범죄에 도용될 가능성이 있다.
먼로가 디오의 노래를 부르는 새 합성비디오는 MIT의 맥거번연구소와 인공지능연구소 토마소 포기오 교수가 주도하는 연구진의 작품이다. 포기오 교수팀은 나중에 감정적 표현이 다르고 여러 각도에서 볼 수 있는 얼굴의 3차원(D) 이미지를 만들었다. 포기오와 에자트 등의 연구진은 컴퓨터가 비디오 클립을 넘나들며 특정인의 발음방법을 숙지하도록 프로그램화시켰다. 이 절차는 며칠이 걸릴 수 있는 복잡한 작업이다. 컴퓨터는 먼저 특정인이 음절 하나 하나를 발음할 때 입의 모양을 그려내는 방법을 배운 뒤 곧바로 이를 합성시키려는 말을 특정인의 입 모양을 빌려 합성해 낸다. 이 기법이 기존 얼굴 애니메이션 기술과 다른 점은 컴퓨터를 ‘가르치는’ 데 있다. MIT 연구진은 자신들이 개발한 신 기술이 언어 훈련과 농아의 발음 교육에 이용될 수 있을 것으로 본다. 이외에 오락과 영화의 더빙에도 이 기술이 응용된다. 하지만 저널리즘 연구기관인 포인터연구소의 밥 스틸리 윤리프로그램국장은 이 기술이 악용될 수 있다고 우려했다.
합성 비디오테이프가 증거를 조작하거나 다른 사람의 입에 말을 옮기는 등 비윤리적 목적에 이용될 소지가 있다는 것이다. 스틸리 국장은 “이 기술로 사실을 왜곡하고 대중을 속인다면 대중은 나중에는 신문과 잡지에서 읽고 TV에서 보거나 라디오에서 듣고, 온라인에서 읽은 내용을 모두 의심하게 될 것”이라고 우려했다. 신문사들은 디지털 이미징 기술이 발달하자 사진 합성과 관련된 지침을 수용할 수밖에 없었다. 얼굴 애니메이션 부문에서도 마찬가지 조치가 요구된다.
MIT 비디오에서는 합성된 입의 동작에 얼굴 모습이 따라가는 경우는 거의 없다. 자세히 보면 입을 제외한 얼굴의 나머지 부문은 항상 입과 조화를 이루지 못했다. 더구나 이 기술은 합성 대상 인물이 머리를 많이 흔들지 않고 정면을 응시해야만 성공 확률이 높다는 한계가 있다. MIT 연구진은 자신들이 개발한 기술을 오는 21일부터 26일까지 샌안토니오에서 열리는 컴퓨터그래픽과 양방향 기술 전문가 회의인 ‘시그그래프(Siggraph) 2002’에 공개할 예정이다.
연구진은 이 기술의 악용 가능성을 우려하면서도 어떤 혁신도 늘 악용 가능성은 있게 마련이라고 자위했다. 포기오 교수는 “어떤 연구에도 이런 걱정은 있게 마련이다”고 말했다. 에자트는 “비디오 ‘워터마크’가 지폐 위조 방지 방식처럼 테이프의 복제나 조작을 방지할 수 있다”며 “컴퓨터가 말 자체를 합성할 수 없고 단지 실제 음성을 비디오에 추가할 뿐이어서 MIT 비디오테이프에 실제로 하지 않은 말을 합성시키기는 어렵다”고 밝혔다. 음성인식 소프트웨어 업체 스캔소프트의 빌 드스테파니스 부사장도 “누구나 속을 수 있을 정도로 컴퓨터 합성 음성과 동영상을 완벽하게 합쳐서 재현하는 일은 매우 어렵다”고 덧붙였다.
<박공식기자 kspark@ibiztoday.com>