중국 국영 베이징 인공지능(AI) 아카데미(이하 BAAI)가 텍스트, 이미지, 비디오를 처리하는 멀티모달 AI 모델 'Emu3'를 공개했다.
중국 언론 사우스차이나모닝포스트(SCMP)는 21일(현지시간) BAAI가 중국 기업 최초로 멀티모달 모델을 출시한 기업(기관) 중 하나가 됐으며, 이는 중국이 미국 주요 기업과 기술 격차를 좁히기 위해 노력하는 것을 보여주는 사례라고 보도했다.
중국 AI 스타트업은 미국과의 기술 경쟁으로 첨단 반도체 칩 구매 등이 가로막힌 상황에서도 오픈AI, 구글 등과 같은 빅테크 AI 모델을 따라잡기 위한 경쟁을 가속화하고 있다. 중국 정부의 지원을 받는 BAAI는 이러한 중국 AI 커뮤니티가 역량을 키울 수 있도록 돕는 비영리 연구기관이다.
BAAI의 최신 멀티모달인 'Emu3'는 간단한 아키텍처를 사용해 사진을 이해하고 비디오 클립을 생성할 수 있다. 하나의 유형 데이터만 처리하는 기존 모델과는 차별화되는 성능을 자랑한다.
Emu3는 텍스트, 이미지, 비디오 클립을 작은 데이터 단위인 '토큰'으로 변환해 단일 모델을 사전훈련시키는 통합 AI 아키텍처를 채택했다. 다양한 데이터 유형을 처리하기 위해 작업별 모델을 결합해야 하는 필요성을 제거해 훈련을 보다 효율적으로 만든 것이 장점이다.
BAAI는 Emu3가 널리 알려진 이미지 생성 AI 모델인 '스테이블 디퓨전 XL'이나 오픈소스 기반 멀티모달 모델인 'LLaVA' 보다 이미지 생성와 생성에서 더 뛰어나다고 밝혔다.
BAAI를 이끌고 있는 왕중위안 대표는 “이는 최근 몇 년 간 가장 큰 기술 성취”라고 강조했다.
그는 Emu3R가 중국의 미래 멀티모달 모델 발전의 기초가 될 수 있을 것이라고 전했다.
BAAI는 앞서 발표한 '우다오 거대언어모델(Wudao LLM)' 프로젝트에 참여했던 일부 직원이 나가 '문샷AI', '지푸AI'와 같은 중국 주요 AI 스타트업 창업에 참여한 것처럼 향후 중국 AI 기술 발전에 기여할 것이라고 강조했다.
BAAI는 Emu3의 기술 논문을 공개하고, 모델의 핵심 기술 중 일부를 온라인 AI 커뮤니티 플랫폼인 허깅페이스에 오픈소스로 공개했다.
김명희 기자 noprint@etnews.com
-
김명희 기자기사 더보기