기업별 최신 인공지능(AI) 모델의 문서 요약 성능을 비교한 결과 오픈AI GPT-4o는 '가독성', 구글 제미나이 1.5 프로는 '분석력', 앤스로픽 클로드 3.5 소네트는 '간결함'에서 강점을 보였다.
요약 대상은 지난 12일 윤석열 대통령이 발표한 대국민 담화문(6932자 분량)이다. 각 AI 모델에 '아래는 윤석열 대통령 대국민담화 전문이야. 요약해줘.'라는 명령어와 함께 대국민담화 전문을 입력한 결과를 비교했다.
비교 결과, 세 모델 모두 수준급 요약 성능을 보였다. 일부 거짓 정보에 대해서는 주의가 요구됐다.
GPT-4o는 담화문 주요 내용을 6가지 항목으로 정리한 뒤, 결론을 한 문장으로 명확하게 제시했다. 글자 크기에 차이를 두거나, 들여쓰기 등을 통해 가독성을 높였다.
틀린 답변도 있었다. 4번째 항목으로 제시한 '야당이 계엄 해제 결의를 통해 대통령의 조치를 저지하려 했다'는 설명은 담화문에는 없는 내용이다. 야당이 국가 안보나 경제 위기 상황에 대해 방관하고 있다거나, 병력 투입의 이유가 질서 유지를 위한 상징적 조치라는 것도 잘못된 설명이다.
제미나이 1.5 프로는 담화문 핵심 내용을 한 문장으로 정리한 뒤, 핵심 내용을 7가지 항목으로 나눴다. 다른 모델과 달리 '비상계엄 선포의 적법성, 야당의 행태에 대한 평가 등은 여전히 논란의 여지가 있다'는 등 자체 분석을 통해 요약본에 대한 관점을 제시했다.
대체로 맞는 설명이었으나, 5번째 항목으로 제시한 '계엄 해제 이유'는 담화문에는 없는 잘못된 설명이다. 한 문장 요약을 두 번 제시하는 점에 대한 개선도 필요했다.
클로드 3.5 소네트는 주요 내용을 5가지 항목으로 구분해, 필요한 항목만을 간단명료하게 제시했다. 항목별 내용은 3가지로 구체화하는 동시에 '예산 삭감(원전, 과학기술, 수사기관 예산)', '자당 비리 수사 방해' 등 간략한 표현이 눈에 띄었다.
하지만, 다른 두 모델과 달리 전체 내용에 대한 요약문은 제시하지 않아 이용자의 추가 질문이 요구됐다. 비상계엄이 해제된 12월4일을 비상계엄 발령일로 설명하는 등 틀린 정보를 제공해 이에 대한 주의도 필요했다.
3개 모델 모두 명령어(프롬프트)의 수준에 따라 결과물의 품질도 달라졌다. '객관적 사실 전달 원칙', '체계적 구조 지시' 등을 포함한 프롬프트를 활용하자, 거짓 정보를 생성하는 '환각 현상'이 줄고 원하는 정보를 얻을 수 있었다.
AI 스타트업 마이디포의 류승훈 대표는 “AI 모델 결과물은 프롬프트를 얼마나 구조화했는지에 따라 달라질 수 있다”며 “단순한 프롬프트를 사용하는 일반 이용자에겐 오픈AI의 챗GPT가, 구조화된 프롬프트를 사용하는 전문가에겐 앤스로픽의 클로드가 적합하다”고 설명했다.
그는 “AI 기술의 빠른 발전을 고려할 때, 특정 모델에 고정되기보다는 유연한 선택과 활용이 중요하다”고 부연했다.
현대인 기자 modernman@etnews.com