네이버 '클로바X'에 이미지 기술 적용…생성형 AI 기술 진화

클로바X 이미지 이해 예시 〈자료 네이버〉
클로바X 이미지 이해 예시 〈자료 네이버〉

네이버의 인공지능(AI) 비서 '클로바X(CLOVA X)'가 텍스트와 함께 이미지를 이해할 수 있는 서비스로 진화한다. 클로바X는 차트·그래프를 해석하고 레시피를 제안하는 등 고차원적인 AI 비서 서비스를 수행한다.

네이버는 생성형 AI를 기반으로 자연스러운 음성을 생성하는 음성 합성 기술도 공개했다. 네이버가 초대규모 AI 하이퍼클로바X(HyperCLOVA X)를 공개한 지 1주년을 맞은 가운데 텍스트뿐 아니라 이미지, 음성도 동시에 처리하는 '멀티모달(Multimodal)' AI로 고도화될 전망이다.

네이버는 오는 27일 클로바X에 시각 정보 처리 능력을 추가하는 업데이트를 단행한다고 22일 밝혔다. 이번 업데이트로 클로바X는 이미지를 이해하는 기능을 갖춘다. 사진 속 상황 추론부터 표·그래프 분석, 상품 인식과 내용 설명까지 클로바X에서 수행할 수 있다.

클로바X는 네이버의 초대규모 언어모델인 하이퍼클로바X 기술을 바탕으로 만들어진 대화형 비서다. 그간 텍스트 입력을 바탕으로 작업을 수행했다. 이번 업데이트로 이미지도 이해할 수 있는 AI 비서로 거듭난다.

클로바X 이용자들은 대화창에 올린 이미지에서 추출된 정보와 입력한 질의를 바탕으로 AI와 대화할 수 있다. 예를 들어 손 글씨로 그린 차트나 그래프 이미지를 해석해달라고 하면 이를 정확하게 분석해 설명한다. 빵과 얇게 썰린 양파, 토마토, 고기 등 이미지를 입력하면 햄버거 레시피를 제안한다. 인형 사진을 보여주며 이름을 지어달라고 하면 문화적 맥락을 고려해 작명한다.

네이버는 이번 업데이트로 클로바X가 논리적 글쓰기, 코드 작성, 번역 등 작업에서 이미지 이해 능력을 기반으로 생산성을 높이는데 활용될 것으로 기대했다.

클로바X는 글로벌 빅테크와 견줄 수 있는 최적화된 멀티모달 성능을 갖췄다. 네이버는 우리나라 초·중·고등학교 검정고시 총 1480개 문항을 클로바X에 이미지 형태로 입력하고 문제를 풀게 한 결과 약 84%의 정답률을 기록했다고 밝혔다. 이는 오픈AI의 'GPT-4o'의 정답률(78%) 보다 높은 수치다.

네이버 하이퍼클로바X 기반 음성 합성 기술 '스피치X(Speech X)' 관련 이미지 〈자료 네이버〉
네이버 하이퍼클로바X 기반 음성 합성 기술 '스피치X(Speech X)' 관련 이미지 〈자료 네이버〉

네이버는 하이퍼클로바X 기반 음성 합성 기술인 '스피치X(Speech X)'도 공개했다. 스피치X는 텍스트 데이터와 음성 데이터를 결합해 고도로 자연스러운 음성을 생성한다. 거대언어모델(LLM) 특징인 뛰어난 문맥 이해와 지시문 해석 능력을 활용해 언어 구조와 발음 정확도 개선은 물론 감정 표현까지 더한 자연스러운 대화가 가능하다. 사용자 음성 패턴, 발음 습관, 말투 등을 학습해 개인화된 음성 서비스를 제공하거나 실시간 음성 번역, 대화형 AI 응답 등 서비스에 적용될 수 있다.

성낙호 네이버클라우드 하이퍼스케일 AI 기술 총괄은 “거대 언어 모델로 출발한 하이퍼클로바X는 이미지 이해 능력을 더한 '거대 시각 언어 모델', 나아가 '음성 멀티모달 언어 모델'로 발전하고 있다”면서 “하이퍼클로바X의 발전된 능력을 클로바X를 비롯한 여러 네이버 서비스에 도입해 새 사용자 가치를 창출하겠다”고 말했다.

변상근 기자 sgbyun@etnews.com