유니닥스, 헬스케어 sLLM 허깅페이스에 공개

회사 소형 언어모델 이미지
회사 소형 언어모델 이미지

유니닥스는 인공지능(AI) 솔루션 'ezMyAIDoctor'에 활용된 헬스케어 sLLM(소형언어모델)을 허깅페이스에 무료로 공개했다고 21일 밝혔다.

sLLM은 'ezMyAIDoctor'에서 사용되는 모델이다. 인공지능산업융합사업단(AICA)의 AIDC-HPC 사업의 결과물이다. 이 모델은 NIA의 AI 허브에 공개된 '초거대 AI 헬스케어 질의응답 데이터'를 바탕으로 Meta의 LLaMA 3.1 모델을 추가로 사전 학습시키고, SFT 및 DPO 등 미세 조정을 거쳐 개발됐다.

개발에는 위키피디아를 비롯해 AI Hub에 공개된 2억 어절의 '헬스케어 질의응답 데이터', 20억 어절의 '한국어 성능이 개선된 초거대 AI 말뭉치', 약 5000 어절에 달하는 '의료 및 법률 전문 서적의 말뭉치' 등이 포함됐다.

MMLU 벤치 마크 중 의료 카테고리에 대해서 유니닥스 자체 테스트한 결과 기존 llama31_8b_instruct 모델 대비 벤치마크 점수가 상승했다. 문자열 생성 시 한글 및 의료용어 정확성이 늘었다.

공개 데이터는 질병에 대한 이해를 돕기 위해 만들어졌다. 질병 정확한 진단과 치료방법을 보장하지 않으며, 정확한 증상에 대한 진단은 의사와 상담할 것을 명시하고 있다. 유석 유니닥스 AI사업본부장은 “이번 모델 공개는 유니닥스의 sLLM구축 역량을 보여주고 있다”며 “이번에 공개한 sLLM을 구축하면서 쌓은 경험과 지식은 법률, 금융, 교육 등 다양한 전문 분야에서 sLLM 구축으로 확장 가능하며, 산업별 특화 문서 기반 생성형 AI 시스템으로 확장할 수 있을 것”이라고 말했다.

임중권 기자 lim9181@etnews.com