임희석 고려대 교수, “한국어 LLM 리더보드에 주관식 평가지표 개발돼야”

임희석 고려대 컴퓨터학과 교수(NLP&AI 연구실 및 HIAI 연구소장)
임희석 고려대 컴퓨터학과 교수(NLP&AI 연구실 및 HIAI 연구소장)

“한국어 거대언어모델(LLM)의 성능을 공정하게 평가하기 위한 주관식 평가지표가 개발돼야 합니다.”

임희석 고려대 컴퓨터학과 교수(NLP&AI 연구실 및 HIAI 연구소장)는 20일 한국어 LLM 평가지표 연구개발(R&D)과 주관식 평가지표를 반영하는 새로운 벤치마크 데이터셋 구축이 필요하다고 제안했다.

임 교수는 지난해 6월 국내 대학 최초로 한국어 특화 LLM 'KULLM2(구름2)'를 개발하고 글로벌 소프트웨어 개발자 플랫폼 '깃허브'에 공개한 바 있다.

임 교수는 “(LLM 성능을 평가해 순위를 매기는) LLM 리더보드 역할은 여러 인공지능(AI) 모델을 객관적으로 평가해 모델을 사용하는 사람들에게 해당 모델 성능을 알려주는 것”이라며 “개발자들에게는 자신의 모델이 어느 수준인지를 알 수 있게 해 개선된 모델을 개발하는데 도움을 준다”고 설명했다.

그러나 '한국어 LLM 리더보드(Open Ko LLM 리더보드)'는 LLM의 한국어 성능을 제대로 평가하기에는 한계가 있다고 분석했다. 현재 이 리더보드에는 약 1500개 LLM이 평가, 순위가 매겨져 있다.

임 교수는 “일반적이라면 1위를 차지하는 LLM의 한국어 이해 및 생성 성능이 가장 좋아야 한다”며 “그러나 연구실 멀티턴(여러 차례 대화가 오가는) 실험 결과 현재 리더보드 상위권 모델들의 관련 성능이 저조하고, 어떤 경우엔 특수문자 등을 더해 알아보기 힘든 답변을 하는 경우도 있다”고 말했다.

임 교수는 영어 시험 문제에 100점을 맞은 학생이 점수는 좋지만 정작 영어를 못하는 상황을 예로 들었다. 그는 “시험 문제를 잘 풀 수 있는 모델만을 만들면 나오는 결과로, 과학습(오버피팅·Overfitting)을 시키면 비교적 용이하게 1등 모델을 만들 수 있다”고 말했다.

실제로 이달 11일 한국어 LLM 리더보드를 운영하는 한국지능정보사회진흥원(NIA)과 업스테이지가 '오버피팅' 등의 문제로 새로운 평가지표를 추가하고 업그레이드 방침을 밝히기도 했다.

임 교수는 여기에 주관식 평가지표를 더하는 아이디어를 제안한 것이다. 주관식 평가지표는 한국 문화와 언어를 이해하고 한국어 질문에 서술형 문장으로 답변할 수 있는 지표다.

임 교수는 올해 4월 최신 모델인 'KULLM3(구름3)'는 Open Ko LLM 리더보드에 올리지 않고, 자체 운영하는 온라인 데모 페이지를 통해 성능을 체험해볼 수 있도록 하고 있다.

임 교수는 한국어 LLM 리더보드가 국내 생성형 언어모델 개발 생태계와 환경 조성에 지대한 영향을 미친 만큼 새 평가지표와 데이터셋으로 신뢰할 수 있는 리더보드 운영이 필요하다고 강조했다.

임 교수는 “한국어 LLM들이 필요한 기업·기관에선 리더보드 상위권의 한국어 LLM을 신뢰하며 자신들의 다양한 사업과 목적에 맞게 활용할 수 있어야 한다”며 “이러면 전 산업과 사회 분야에 LLM이 활용돼 전 국민의 AI 일상화를 이루는 시기가 더욱 가까이 올 수 있을 것”이라고 밝혔다.

김명희 기자 noprint@etnews.com

AI