유석 유니닥스 AI사업본부장은 29일 서울 삼성동 코엑스에서 열린 '디지털문서 플랫폼 콘퍼런스 2024'에서 헬스케어 특화 경량화 거대언어모델(sLLM)을 활용한 '이지마이AI닥터(ezMyAIDoctor)'를 소개했다.
유석 본부장은 헬스케어 정보를 디지털 문서로 활용할 경우 △정확성 향상 △접근성 개선 △효율성 증대 △데이터 통합 및 분석 △비용 절감 △보안 강화 △환자 참여 증진 등 효과가 있다고 강조했다.
유 본부장은 “손글씨로 인한 오해석을 방지하는 한편 AI 기반 시스템으로 데이터 입력 오류를 감지할 수 있다”면서 “환자가 자신의 의료 기록에 쉽게 접근·관리가 가능하다”고 말했다.
특히 유 본부장은 헬스케어 분야에서 거대언어모델(LLM)이 아닌 sLLM 도입 필요성에 대해서 역설했다. 의학용어 특수성과 복잡성으로 일반 LLM으로 정확히 이해·사용하는 데 한계가 있는 데다 최신 연구 결과와 치료 가이드라인의 지속 업데이트가 필요해서다. 더욱이 환자 개개인의 특성을 고려한 맞춤형 의료 정보를 제공하기 위해서도 sLLM이 더 적합하다고 분석했다.
유 본부장은 “환자 데이터가 원외 반출 우려로 폐쇄망으로 운영해야 하는데 LLM은 쉽지 않다”면서 “헬스케어 분야는 LLM보다 sLLM 적용이 필요하다”고 말했다.
유니닥스의 헬스케어 sLLM은 채팅형식으로 의료 관련 질의응답을 수행하며 멀티턴(연이은 질문과 답변)을 지원한다. 유니닥스는 허깅페이스에 헬스케어 sLLM 모델을 공개해 누구나 사용할 수 있도록 했다.
유 본부장은 헬스케어 sLLM 개발 과정도 소개했다.
위키 피디아 영문과 한글 각각 27억557만1440 어절, 8583만6757 어절을 비롯해 초거대 AI 헬스케어 질의응답 데이터 2억 어절, 한국어 성능이 개선된 초거대 AI 말뭉치 20억 어절, 의료·법률 전문서적 말뭉치 4921만7568 어절 등을 수집한 후 학습이 가능하도록 전처리를 수행했다. 또 지도학습 기반 미세조정, 보상모델학습 등을 통해 LLM이 지시(Instruct)에 따르도록 했으며, 학습엔 라마-팩토리(LLaMA-Factory)를 이용했다. 개발한 sLLM 모델의 성능 평가엔 벤치마크(benchmark)를 활용해 최적화했으며, 추가 미세조정도 거쳤다. 학습을 거듭하면서 정답률 상승(71%→76%→89%)도 확인했다. 나아가 라바(LLaVA) v1.5를 통해 이미지로 질의·응답하는 기능도 갖췄다.
아울러 유 본부장은 헬스케어 분야에 sLLM 적용을 확장하기 위해 △개인정보 보호 및 데이터 보안 △의료 의사결정 지원 시스템으로서의 법적책임 △규제 준수 및 인증 △윤리적 사용 및 편향성 문제 △지적재산권 및 라인선싱 등을 고려해야 한다고 강조했다.
유 본부장은 “의료 데이터 민감성과 개인정보보호법 준수 방안 등을 마련해야 한다”면서 “AI 모델과 학습 데이터에 대한 지적재산권 이슈에 대해서도 대응해야 한다”고 말했다.
이어 그는 “헬스케어 sLLM 모델을 개발하고 공개 여부에 대해서 고민이 많았다”면서 “'sLLM 모델 사용으로 인해 발생하는 모든 결과에 대한 어떠한 법적 책임도 지지 않는다'는 면책 조항을 넣었다”고 덧붙였다.
조재학 기자 2jh@etnews.com