[IITP 리뷰 원]AI 시대 핵심 엔진 '멀티모달 AI'

정보통신기획평가원(IITP)
정보통신기획평가원(IITP)

구글은 지난달 '구글 클라우드 서밋 서울 2024' 행사에서 멀티모달 대규모 언어모델(MM-LLM)인 '제미나이'를 소개하며, 다양한 인공지능(AI) 솔루션을 선보였다.

이 행사에서는 구글 워크스페이스에서 테스트 중인 업무용 비디오 생성형 AI '구글 비즈'를 시현 했는데, 이는 사용자가 명령어를 입력하면 스크립트를 생성하고, 문서를 첨부하면 발표 영상을 제작해 주는 등 세상을 놀라게 했다.

최근 AI 기술의 급격한 발전은 우리 일상 생활과 산업에 큰 변화를 가져오고 있다. AI의 정점으로는 인간과 같거나 그 이상의 지능을 갖춘 범용인공지능(AGI)을 말한다. 이를 가능하게 하는 핵심이 바로 멀티모달 AI인 것이다.

멀티모달 AI는 텍스트, 이미지, 비디오 등 다양한 형태의 데이터를 동시에 이해하고 처리하는 능력을 의미한다. 전통적인 AI는 주로 단일 형태 데이터에 의존해 왔으나, 멀티모달 AI는 서로 다른 유형의 데이터 간 관계를 학습함으로써 더 풍부하고 정확한 정보를 추출할 수 있다.

예를 들어, 텍스트와 이미지를 동시에 분석해 이미지 설명을 생성하거나, 영상 속 음성과 장면을 함께 분석해 더 정확한 비디오 요약을 생성하는 것이 가능하다. 이는 여러 형태 데이터를 통합해 심층 이해를 가능하게 하는 기술로 AI의 새로운 혁신을 이끌고 있다.

◇멀티모달 AI 적용분야 및 향후 전망

멀티모달 AI는 다양한 형태의 데이터를 통합해 더 깊이 있는 이해와 분석을 가능하게 함으로써, 여러 분야에서 혁신적인 변화를 일으킬 것으로 예상된다. 현재 구글, 네이버 등 글로벌 기업들이 활발히 연구하고 있으며 의료, 자율주행, 교육 등 다양한 분야에서 활용되고 미래 전망도 밝다.

대표적인 멀티모달 AI인 GPT-4o(오픈 AI)와 같은 경우 자연어 처리와 최신 언어 모델로 텍스트·이미지를 동시 처리할 수 있다. 이런 모델은 텍스트 설명을 생성하거나, 이미지를 기반으로 질문에 답변하는 등 다양한 응용 가능성을 보여주고 있다.

비디오 데이터는 이미지, 음성, 텍스트가 모두 결합된 형태로, 멀티모달 AI의 진가가 발휘되는 분야다. 현재 비디오 분석 기술은 보안, 엔터테인먼트, 스포츠 분석 등 다양한 분야에서 활용되며, 실시간 객체 인식, 행동 예측, 비디오 요약 등 기능이 점점 향상되고 있다.

또 첩보영화에서 보던 테러범 이미지를 분석해 CCTV에서 실시간으로 찾아내거나, 자율주행에서 필수적인 속도, 차선 위반, 날씨 정보등을 분석하고, 의료분야에서 질병 조기 진단이나 분석·치료 등에도 다양하게 적용될 수 있다.

◇다양한 멀티모달 AI 고도화를 통한 AI 시대 대비

멀티모달 AI는 인간수준 인지 능력을 갖추며, 복잡한 문제 해결을 위해 수많은 데이터를 통합·이해·활용하는 능력이 핵심이다. 그러기 위해서는 지속적인 연구개발과 기술혁신이 필요하다.

더 정교한 데이터 융합 알고리즘과 모델이 필요하고 향후 데이터 간 시너지 효과를 극대화할 수 있는 방법을 찾는 데 초점을 맞춰야 할 것이다. 이를 통해 사용자 언어, 습관, 상황 등을 고려한 사용자 환경에 적응할 수 있는 맞춤형 멀티모달 AI 모델이 개발될 것으로 예상된다.

아울러 멀티모달 AI 시스템은 대규모 데이터 처리와 높은 연산 자원을 필요로 한다. 향후에는 실시간 데이터 처리가 가능하고, 더 적은 자원으로도 높은 성능을 발휘할 수 있는 다양한 경량화된 모델들이 개발돼야 할 것이다.

AI 시대가 가속화되고 멀티모달 AI 활용이 빈번해지면서 데이터 프라이버시, 딥페이크, 윤리적 사용 등의 문제가 대두되고 있다. 인간과 AI가 함께 실생활에 공존하기 위해서는 기술적 혁신뿐만 아니라 윤리적 문제 해결과 같은 법적 기술적 장치 마련도 중요할 것이다.

글 : 도승희 정보통신기획평가원(IITP) 연구위원

김영준 기자 kyj85@etnews.com