sLLM으로 비용 효율적인 생성AI 구현하라

[솔루션 가이드] 생성AI 비용효율과 최적화 높이는 'sLMM'
특정 목적에 사전 최적화된 경량 모델로 비용과 시간 절감
단일 엔비디아 GPU 서버로 온프레미스 생성AI 구현하는 sLLM

LLM 기반 생성AI가 기업의 디지털 전환을 상징하는 새로운 키워드로 부상하고 있다. 생성AI는 디지털 전환 수준이 높은 기업이 디지털 상품을 만들어 제공하는 방식을 혁신할 수 있는 잠재력이 있다.

먼저 생성AI는 신제품의 아이디어와 개발을 지원할 수 있다. 예를 들어 고객과의 지속적인 상호작용 속에서 지금까지 충족되지 않은 요구사항을 파악할 수 있다. 이를 통해 생성AI는 디지털 사품을 고객에게 제공하는 데 있어 '초개인화' 시대를 열 수 있다.

생성AI는 빅 데이터 분석을 넘어 프롬프트를 통해 사용자와 소통을 하면서 개인의 취향과 성향 그리고 선호를 파악할 수 있다. 즉, 실시간에 가까운 추론 작업을 통해 초개인화된 맞춤형 제안과 서비스를 제공할 수 있는 것이다.

sLLM으로 비용 효율적인 생성AI 구현하라
훈련을 위한 비용과 시간 절감

생성AI 서비스를 기업에서 활용하는 방법은 크게 두 가지다. 첫 번째 고려할 수 있는 방법은 자체적으로 LLM을 구현하는 것이다. 이는 GPT, BERT, PaLM, LaMDA, DALL-E 같은 FM(Foundation Model)을 엔비디아(NVIDIA) SuperPOD 같은 강력한 GPU 기반 컴퓨팅 인프라를 기반으로 직접 훈련과 최적화를 하는 접근법이다. 파운데이션 모델을 이용할 경우 비즈니스 목적에 맞게 해야 할 작업들이 매우 많다. 이런 이유로 시간과 비용이 많이 든다. 이 전략은 예산, 인력 그리고 방대한 내부 데이터를 보유한 조직에게 알맞다고 볼 수 있다.

양질의… 데이터를 보유한 경우 파운데이션 모델보다 비즈니스 목표에 맞게 사전 최적화된 경량화된 모델을 이용하는 것이 더 유리하다. 이런 이유로 최근 많은 조직이 sLLM(small Large Language Model, 소형 언어 모델)에 대한 관심을 보이고 있다. sLLM은 기존 LLM에 비해 변수의 수가 60억(6B) 내지 100억(10B) 개로 적은 LLM을 지칭한다.

sLLM은 훈련을 위한 소요 비용이나 시간을 절감할 수 있으며, 다른 애플리케이션과 통합하기 쉽다. 또한, 기업이 기존 보유한 데이터 활용하여 맞춤형으로 구축하기 수월하여 효율성이 좋다는 이점이 있다. 이러한 이유로 기업에서 저마다의 언어 모델과 이를 기반으로 질문 응답 챗봇을 구축할 수 있어 각광받고 있다.

sLLM이 각광을 받는 이유는 크게 두 가지다. 첫 번째는 비용이다. 파인튜닝된 LLM 모델을 서비스 방식으로 사용하는 것도 비용이 많이 든다. 또한, 파인튜닝을 위한 데이터 엔지니어링 관련 역량 확보와 데이터 관리 부담도 크다. 이런 문제를 해결하기 위해 등장한 것이 PEFT(Parameter-efficient fine tuining), SuperICL(Super In-Context Learning)과 같은 아이디어다. 모두 적은 수의 파라미터를 학습하는 것 만으로 LLM 모델 전체를 파인튜닝하는 것 못지 않은 효과를 거두기 위한 아이디어다.

두 번째 이유는 오픈AI처럼 파운데이션 모델의 가중치를 공개하지 않는 블랙박스 방식의 모델의 폐쇄성에 대한 우려다. 파운데이션 모델을 개발하는 기업이 폐쇄형 전략을 택할 경우 조직의 개발자는 모델이 어떻게 작동하는지 이해하기 어려울 수 있다. 이로 인해 모델을 디버깅하고 잠재적인 편향성을 파악하기가 어려울 수 있다. 또한, 폐쇄적인 전략은 모델을 다른 시스템과 통합하기 어렵게 만들 수도 있다. 이런 이유로 블랙박스 모델의 대안으로 사용할 수 있는 다양한 오픈 소스 모델이 주목받고 있다.

최근 각각의 용도(Task)에 최적화된 sLLM이 속속 등장하고 있어 선택지가 확대되고 있다. 주목받고 있는 소형 언어 모델로는 LLaMA 계열(4가지 버전(6.7B, 13B, 32.5B, 65.2B))의 스탠포드 대학교의 '알파카 7B(Alpaca-7B)', 'Vicuna-13B', Nomic AI의 'GPT4All'(7B) 등이 있다.

LLaMA-7B 모델을 파인튜닝해 만들어진 알파카 7B는 70억 개의 매개변수를 사용하는 sLMM이다. 5만 2000개의 데이터를 파인튜닝해 만들어졌으며, 스탠포드 대학교에 따르면 예비 데이터 세트로 측정했을 때 오픈AI의 text-davinchi-003(GPT 3.5)와 비슷한 성능을 제공한다고 전하고 있다.

메타(Meta)의 LLaMA와 스탠포드의 알파카에 영감을 받아 UC 버클리, UCSD, CMU, MBZUAI(MohamedBin Zayed Univ. of AI)가 공동으로 개발한 Vicuna-13B는 ShardGPT로부터 수집 된 사용자들의 대화로 LLaMA를 파인튜닝한 모델이다. ShardGPT는 사용자 프롬프트와 ChatGPT의 해당 답… 변 결과를 서로 공유할 수 있는 웹사이트다.

정보 지도 제작 기업인 Nomic AI가 만든 GPT4All'(7B)는 LLaMA-7B 모델을 파인튜닝해 만들어졌다. 프롬프트 생성 쌍을 위해 GPT3.5-turbo 모델을 사용했고 4비트 양자화(Quantization)와 LoRA를 적용했다.

온프레미스 환경에 비용효율적인 생성AI 인프라 구축

온프레미스 환경에 엔비디아 DGX H100이나 HGX H100 서버 한 대를 배치하면 sLMM을 활용해 생성AI를 사내 업무와 대외 고객 서비스에 발빠르게 적용할 수 있다. 기업은 초기 투자나 지속적인 서비스 이용 요금 부담 없이 모델 탐색, 데이터 준비, 훈련/파인튜닝 과정을 온프레미스 환경에 마련할 수 있다.

sLLM으로 비용 효율적인 생성AI 구현하라

데이터 과학자나 AI 개발자는 비즈니스 요구에 맞는 sLLM을 엔비디아 NGC 카탈로그, 허깅페이스(Hugging Face) 모델 허브 등에서 편리하게 탐색할 수 있다. 용도에 맞는 적합한 라이선스의 sLLM을 다운로드 받은 다음 데이터 엔지니어의 도움을 받아 필요 데이터를 준비한다. 그리고 엔비디아 DGX H100이나 HGX H100 서버를 사용해 모델 훈련과 파인튜닝을 수행하면 거대 AI 인프라나 고가의 클라우드 서비스를 이용하지 않고도 조직의 생성AI 전략을 지원할 수 있다.

초기 투자 부담 줄이고 비즈니스에 빠르게 접목

엔비디아 DGX H100이나 HGX H100 서버를 이용해 sLLM을 최적화하면 초기 투자 부담 없이 바로 생성AI를 비즈니스에 접목할 수 있다. 또한 sLLM을 활용하는 전략을 택하면 AI 인프라 초기 투자 비용 부담을 크게 줄일 수 있다. 더불어 엔비디아 GPU 기반 서버와 함께 엔비디아 AI 엔터프라이즈 플랫폼을 도입하면 전문 지식이 없어도 sLLM 훈련, 최적화, 서비스 제공이 가능하다.

sLLM으로 비용 효율적인 생성AI 구현하라

서비스, 의료, 교육 등 도메인 특화 sLLM을 활용한 생성AI 전략이 주류로 떠오르고 있는 가운데, 많은 조직이 작은 모델을 미세 조정해 대형 모델과 거의 동일한 성능을 얻고 있다. 이것이 가능한 이유는 sLLM을 활용하면 조직이 보유한 데이터로 모델을 최적화할 수 있기 때문이다. 이렇게 목적에 맞게 도메인 특화 모델을 만들어 생성AI 전략을 가속할 수 있다.

전자신문인터넷 유은정 기자 judy6956@etnews.com