[IITP 리뷰1]소규모 언어모델을 활용한 중소기업 AI 도입

2023년 올해 인공지능(AI)이 뜨거운 화두가 됐는데 이는 전문가의 전유물이었던 AI 기술이 '챗GPT' 발표 후 일반인들도 사용 가능한 생성형 AI 기술로 발전하면서 새로운 패러다임을 맞이했기 때문이다.

생성형 AI에서 중요한 역할을 하는 것이 대규모 언어모델(LLM:Large Language Model)이다.

많은 양의 텍스트 데이터를 학습하고, 인간과 유사한 텍스트를 생성할 수 있으며, 이를 통해 언어번역·질의응답 등 다양한 생성형 AI 애플리케이션(앱)을 구현할 수 있다.

그러나 대규모 언어모델은 텍스트나 자연어 처리를 강점으로 운영중이며 최근에는 텍스트, 이미지, 음성, 영상 등 인간과 유사하게 동시 추론이 가능한 대규모 멀티모달모델(LMM:Large Multimodal Model)이 등장하고 있다.

예를 들어 계란과 밀가루를 보여주면 요리에 관련한 조리법 등을 알려주는 개념인 것이다.

◇ 대규모 언어모델 AI의 한계와 경량화 시도

대규모 언어모델 및 멀티모달모델은 박학다식한 AI로서 데이터를 1회 학습하는데 수백억원씩 들어가며, 학습시간도 매우 많이 필요하며, 대규모 하드웨어(HW) 인프라를 운영하기 위해서 수천억원 이상 비용이 필요하다.

또한, 언어모델의 크기는 매개변수(파라미터)에 따라 결정된다.

대규모 언어모델을 쓰는 GPT-3.5는 1750억개, 구글 팜2는 3400억개, 네이버의 하이퍼클로바는 2040억개며, 멀티모달모델을 쓰는 GPT-4V는 수천억개 이상의 매개변수로 대형화해 AI 분야에서 주도권을 차지하기 위해 치열한 경쟁을 벌이고 있다.

이와 같이 매개변수를 계속해서 추가하면서 복잡해지고, 대규모 컴퓨팅 리소스가 필요하고, 대규모 모델을 훈련시키는 시간이 증가하는 등 AI 성능을 향상시키는 데 한계를 보인다.

경량화 및 최적화된 새로운 모델인 소규모 언어모델(sLLM:small Large Language Model)이 급부상하고 있다.

생성형 AI가 대세가 되는 미래시대에 각 기업들이 보유하고 있는 내부 데이터는 가장 가치있는 자산중 하나다.

병원, 보험회사, 자동차회사, 로펌 등 각기 다른 회사들은 운영관리 서비스를 위해 사용하는 어휘와 용어가 모두 상이하다.

스탠포드 알파카. 사진=스탠포드대 CRFM
스탠포드 알파카. 사진=스탠포드대 CRFM

이를 고객 데이터 및 조직 내 콘텐츠와 결합해 자체 언어모델을 구현하는 중소기업에게 소규모 언어모델은 저렴하고 신속하게 만들 수 있는 것이다. 보유한 데이터를 활용해 맞춤형으로 최적화된 모델을 구축할 수 있어 앞으로 더욱 각광받을 것으로 전망한다.

마이크로소프트(MS)는 13억개 매개변수를 컴퓨터 1대로 훈련할 수 있는 '파이-1(phi-1)'을 공개했고, 스탠포드대학은 70억개 매개변수를 컴퓨터 8대인 클라우드서비스를 이용해 3시간만에 훈련을 완료하고 비용도 600달러에 불과한 알파카를 만들었다.

데이터브릭스는 60억개의 매개변수를 1대 서버에 3시간만에 훈련이 가능한 돌리 2.0을 출시했다.

이와 같이 소규모 언어모델은 상대적으로 작은 매개변수로, 더 작은 컴퓨팅 리소스를 활용할 수 있으며, 최적화와 효율적인 방법으로 성능향상이 가능하고, 적은 에너지 소모도 장점으로 부각되고 있다.

◇ 중소기업의 소규모 언어모델 도입 기법

국내 AI 서비스 사례로 루닛은 암진단에 특화된 AI 영상분석 솔루션과 암치료를 위한 플랫폼을 상용화했으며, 딥노이드는 뇌동맥류 진단을 위한 영상분석 및 진단 서비스, 마인즈랩은 인공지능 상담원 챗봇 및 AI 회화 학습서비스 AI 튜터를 서비스 중에 있다.

소규모 언어모델을 만들기 위해서는 뉴런을 무작위로 삭제하면서 학습해 매개변수를 줄이면서도 모델의 성능을 유지할 수 있는 드롭아웃(Dropout) 기법이 있다.

가중치 값을 일정한 비율로 감소시켜 모델이 지나치게 학습하는 것을 억제하는 가중치 감소(Weight decay) 기법이 있으며, 대규모 언어 모델을 특정 작업에 맞게 매개변수를 효율적으로 조정해 모델의 매개변수를 줄이면서도 정확도를 유지할 수 있는 로우랭크 적응(Low-Rank Adaptation, LoRA)기법 등을 활용할 수 있다.

이와 같이 소규모 언어모델은 일상적인 대화 역량은 떨어질 지라도, 대규모 언어모델 및 멀티모달모델에 비해 적은 양의 데이터로도 학습이 가능하기 때문에, 기업이 자체적으로 보유한 데이터를 활용헤 맞춤형으로 최적화된 모델을 구축할 수 있다.

이를 통해 기업은 자사의 비즈니스에 최적화된 AI 서비스를 개발할 수 있으며, 이를 통해 경쟁력을 강화할 수 있다.

글:고은영 정보통신기획평가원(IITP) 연구위원

김영준 기자 kyj85@etnews.com