인공지능(AI) 진화가 빨라지면서 AI 에이전트 발전도 가속화되고 있다. 거대언어모델(LLM:Large Language Model)과 멀티모달 모델(Multimodal Model)에서 AI 에이전트로의 진화와 시장 발전이 본격화되고 있다. 현재 언어 중심의 LLM과 텍스트·동영상·이미지·오디오·코드를 종합적으로 이해하는 멀티모달 모델이 많이 사용되고 있다. 이러한 발전은 향후 사용자를 도와 일정 작업을 수행하는 AI 에이전트 진화에 큰 도움을 주고 있다. 당분간 AI 에이전트 중심의 시장 발전을 거쳐 궁극적인 범용인공지능(AGI) 시대로 발전해 나갈 것으로 전망된다.
현재 초기 AI 에이전트는 기존 소프트웨어(SW)툴과 결합해 사용자 작업을 돕도록 진화하고 있다. 크롬 등 브라우저·MS 워드와 아래아 한글 등 워드프로세서, 엑셀 등 계산과 정리툴, 포토숍 등 그래픽 편집툴, 슬랙과 팀즈 등 협업툴, 파워포인트와 프레지 등 발표툴과 결합해 발전해 나가고 있다.
구글은 11일 멀티모달 생성형AI 모델인 '제미나이 2.0'을 발표하면서 '멀티모달 AI모델'에서 'AI 에이전트'로 진화를 선언했다. 제미나이 2.0은 멀티모달 기능, 계획수립, 복잡한 명령 수행, 함수 호출, 검색 등 다양한 툴 연동 등 AI 에이전트를 위한 기반 기능을 제공하게 된다. 구글이 자체 개발한 AI 프로세서인 6세대 TPU도 학습과 추론에 이용된다.
구글은 제미나이 2.0을 기반으로 한 딥리서치, 아스트라, 마리너, 줄스 등 현재 진행하는 다양한 AI 에이전트 프로젝트를 소개했다. 연구 보조 AI 에이전트 딥리서치는 사용자가 연구 내용을 입력하면 연구 계획을 제시하고, 관련 정보를 분석하며 복잡한 추론 과정을 거친 후 최종 보고서를 작성해 줄 수 있다. 브라우저에서 작업을 수행하는 마리너에서는 질문을 입력하면 구글 시트 등 여러 브라우저툴과 연결해 관련 자료를 검색, 정리하고 결과물을 만든다.
사용자가 사용하는 다양한툴과 생성형 AI 모델이 연결되면서 사용자가 원하는 기능을 자동으로 수행하고 보조하는 AI 에이전트 발전이 예상된다. AI 에이전트는 사용자 편의성을 제공하는 동시에 일하는 방식 변혁과 SW 생태계 변혁도 가져올 것으로 보인다. 기존 방식은 사용자의 어려운 작업, 여러 툴의 연계, 애플리케이션(앱)과 툴 중심의 사용자 인터페이스 중심이라면, AI 에이전트는 사용자의 작업과 툴 사용을 대체하고 앱과 툴 중심의 사용자 인터페이스를 AI 에이전트로 단순화한다. 관련 시장의 파괴 변화도 예상된다.
'CES 2024'와 'MWC 24'에서는 래빗 R1, 휴메인 AI핀, 티모바일 콘셉트AI폰 등 스마트폰 이후의 모습을 그리는 기기가 공개됐다. 앱과 툴 중심의 기존 SW 생태계를 재편하고, 사용자 입력과 명령에 맞는 기능을 수행한다.
AI 에이전트 발전은 차세대 인터페이스-SW-기기-시장의 발전과 연결돼 기업 측면에서는 생태계와 시장의 파괴적 변화에 대한 대비도 필요하다. AI 에이전트를 사용하는 사용자와 기업 측면에서는 생산성 향상이 중요 이슈가 된다. 복잡한 작업의 단순화와 시간 절약을 통해 생산성과 수익성을 높여갈 필요가 있다.
CES 2025에는 엔비디아와 구글·메타·아마존·인텔·퀄컴 등 미국의 주요 빅테크 기업의 전시와 발표가 예정됐다. AI 프로세서, 생성형 AI 모델, AI 에이전트 등 빅테크 기업의 전시 경쟁도 벌어질 것으로 보인다. 엔비디아 AI 프로세서 블랙웰, 하드웨어와 SW 생태계, 구글의 제미나이 2.0과 6세대 TPU와 웨이모 자율주행차, 메타의 라마 3와 메타 AI, 아마존의 트라니엄 3 프로세서와 멀티모달 모델 노바 등 각 업체들의 핵심 이슈가 기대된다.
구글 제미나이 2.0 발표는 진행 중인 AI 에이전트 발전에 많은 시사점을 주고 있다. 앞으로 AI 에이전트발전과 이에 따른 시장 변화를 주목할 필요가 있다.
정구민 국민대 전자공학부 교수 gm1004@kookmin.ac.kr