인공지능(AI) 분야에서 2023년의 키워드는 챗GPT로 대표되는 생성형 AI였다. 그렇다면 2024년을 대표하는 키워드는 무엇일까? 많은 전문가들은 주저 없이 멀티모달(mutil-modal) AI를 꼽는다. 이는 사용자의 요구에 따라 텍스트, 이미지, 음성, 동영상 등의 모드를 자유롭게 변환하도록 돕는 AI 기술이다.
과거 인터넷 검색이 원하는 음식을 맘대로 골라 먹을 수 있는 뷔페였다면, 챗GPT를 비롯한 생성형 AI는 고객이 원하는 음식을 셰프가 직접 만들어 주는 주문형 서비스에 가깝다. 최근 생성형 AI는 대화형 챗봇에 검색 기능, 이미지와 동영상 생성 기능 등을 추가하면서 고객의 만족도는 높이면서, 시간과 비용을 동시에 줄여주고 있다.
생성형 AI에서 올해 주목할 만한 부분은 달리(Dall-E), 미드저니(Midjourney), 스테이블 디퓨전(Stable Diffusion)과 같은 이미지 생성 AI가 대중화되고, 소라(Sora), 에뮤(Emu), 런웨이 젠(Runway Gen), 피카(Pika)와 같은 동영상 생성 AI가 새롭게 출시되면서 멀티모달 AI가 우리의 일상 속으로 다가왔다는 사실이다.
챗GPT로 대표되는 대규모 언어 모델(Large Language Model:LLM)에 기반한 생성형 AI는 빠른 속도로 대규모 멀티모달 모델 (Large Multi-modal Model:LMM)에 기반한 생성형 AI로 진화하고 있다. 생성형 AI의 대표주자인 오픈AI가 기존의 대규모 언어 모델인 GPT-4에 이미지 생성 AI인 달리와 동영상 생성 AI인 소라를 연계해 대규모 멀티모달 모델로 발전시키는 것이 대표적인 사례다.
경쟁사인 구글 역시 자체 생성형 AI 서비스인 제미나이(Gemini)에 멀티모달 기능을 추가하여 새로운 버전을 발표하였다. 전 세계 시가총액 1위 기업인 마이크로소프트 역시 오피스 제품군에 멀티모달 AI를 지원하는 코파일럿(CoPilot) 서비스를 도입하고, 투자사인 오픈AI에 대한 지원과 협력을 아끼지 않고 있다.
과거 소비자들이 알렉사(Alexa), 시리(Siri), 구글 어시스턴트(Google Assistant) 등 AI 비서 서비스에게 기대했던 서비스들은 멀티모달 AI가 현실화된 오늘에서야 요구사항의 충족이 가능해졌다. 미완의 실패작에 가까웠던 버추얼 휴먼 서비스 역시 멀티모달 AI의 발전에 의해 어색함 없이 서비스되고 있다.
기업들은 인턴 사원 또는 대학원생 수준의 지능을 가진 생성형 AI를 본격적으로 활용하기 시작했다. 과거 실무자들이 진행했던 파워포인트, 엑셀 작업을 비롯해 간단한 리서치, 보고서 작성 등을 생성형 AI를 활용해 훨씬 빠른 시간 내에 마치고 있다. 그래픽 디자인, 영상 촬영 및 편집과 같은 전문가의 영역 역시 생성형 AI를 다룰 수 있는 사람들에 의해 대체되거나, 효율화되고 있다.
영화 제작 현장에서도 대규모 엑스트라 동원이나 위험한 액션 장면 촬영은 멀티모달 AI가 대체하는 시대가 됐다. 과거 단역배우 또는 스턴트맨이 수행하던 역할을 컴퓨터 그래픽 전문가 또는 드론과 같은 첨단기기가 대체하거나 보완해 왔다면, 앞으로는 이 모든 역할을 멀티모달 AI로 진행하는 시대가 도래할 것이다.
그렇다면 우리는 어떻게 대응해야 하는가? 멀티모달 AI를 비롯한 AI 기술을 두려워하지 말고 무조건 사용하고, 익숙해져야 한다. 전자제품에 호기심을 갖고 이리저리 둘러보고, 분해해 본 사람이 전문가가 되는 것처럼, 생성형 AI도 마찬가지다. 인터넷 초창기 시절 두려움 없이 야후, 알타비스타, 라이코스와 같은 검색엔진을 누볐던 사람들이 1세대 IT 전문가가 되었던 것을 기억하자.
멀티모달 AI를 비롯한 생성형 AI를 잘 활용하는 것은 더 이상 프로그래머나 AI 전문가의 영역이 아니다. 두려움 없이 기술을 받아들이고, 서비스를 잘 이해하고, 활용하는 AI 문해력(AI Literacy)이 중요하다는 사실을 잊지 말자.
황보현우 하나은행 자문위원·홍콩과기대(HKUST) 겸임교수