
디노티시아는 한양대 AIHA 연구실과 공동 개발한 인공지능(AI) 양자화 알고리즘 평가 플랫폼 'QLLM-INFER'를 오픈소스로 깃허브에 공개했다고 8일 밝혔다.
양자화는 AI 모델의 계산 정밀도를 낮춰 더 빠르게 만드는 기술이다. 큰 숫자를 작은 숫자로 압축, AI 모델 성능을 최대한 유지하면서 메모리 사용량과 연산 속도를 줄일 수 있다. 높은 연산량과 메모리 사용 때문에 실제 서비스나 개인용 컴퓨터, 스마트폰에 대규모언어모델(LLM)을 적용하기 어려운 문제를 해결할 수 있다.
지금까지 여러 양자화 알고리즘이 있었지만, 서로 다른 환경과 조건에서 평가돼 객관적 비교가 어려웠다. 디노티시아와 한양대가 표준화 환경에서 알고리즘 성능을 정확히 비교하는 플랫폼을 만든 이유다.
또 최근 3년간 가장 많은 주목을 받은 양자화 기술 8가지를 선정, 동일한 조건에서 객관적 평가도 진행했다. 플랫폼은 △가중치와 활성화 값 (모델의 기억과 계산을 담당하는 값)을 모두 줄이는 방식 △가중치만 줄이는 방식 △AI가 긴 입력을 처리할 때 임시 저장하는 공간(KV 캐시)을 줄이는 방식 등 세 가지 유형으로 나눠 알고리즘 성능을 분석했다.
정무경 디노티시아 대표는 “'QLLM-INFER'는 양자화 알고리즘의 성능을 객관적이고 투명하게 비교할 수 있는 오픈소스 플랫폼”라며 “최적의 양자화 솔루션을 선택하거나 새로운 양자화 기술을 개발할 때 큰 도움을 줄 것”이라고 강조했다.
최정욱 한양대 융합전자공학과 교수는 “지금까지 양자화 기술은 연구마다 기준이 달라 객관적 비교가 어려웠다”며 “AI 연구자들이 이 플랫폼을 통해 더욱 객관적이고 신뢰성 높은 연구 성과를 낼 수 있을 것”으로 기대했다.
권동준 기자 djkwon@etnews.com