DGIST, 개인정보 공유 없이 대규모 모델학습이 가능한 연합학습 AI 기술 개발

박상현 DGIST 로봇및기계전자공학과 교수(왼쪽)와 강명균 박사과정생
박상현 DGIST 로봇및기계전자공학과 교수(왼쪽)와 강명균 박사과정생

대구경북과학기술원(DGIST)은 박상현 로봇및기계전자공학과 교수팀이 미국 스탠퍼드대학팀과 협력해 개인정보 및 데이터 공유 없이도 대규모 모델 학습이 가능한 연합학습 인공지능(AI) 기술을 개발했다고 10일 밝혔다.

이 기술은 여러 기관이 함께 사용할 수 있는 모델을 효율적으로 학습할 수 있어 의료영상 분석 분야에 기여할 수 있을 것으로 기대된다.

의료 분야에서 딥러닝 모델을 학습할 경우 데이터에 환자 개인정보가 포함돼 개인정보 침해에 대한 우려가 많았다. 때문에 각 병원 데이터를 중앙 서버로 모으는 것이 힘들었고, 나아가 여러 병원에서 공동으로 사용할 수 있는 대규모 모델을 개발하기도 어려웠다.

이번 연구에서 제안한 모델 구조 이미지.
이번 연구에서 제안한 모델 구조 이미지.

이 문제를 해결하기 위해 연합학습은 데이터를 중앙서버에 수집하지 않고 각 병원이나 기관에서 학습한 모델만을 수집해 중앙서버로 전송해 학습한다. 그러나 중앙 서버로 모델을 여러 번 전송해야 하는 어려움이 있다. 특히 환자 데이터를 안전하게 보관해야 하는 병원에서는 모델을 중앙 서버로 반복 전송하는 데 비용과 시간이 많이 들기 때문에 모델 전송 횟수를 최소화해야 할 필요가 있다.

연구팀은 이미지 생성과 지식증류 기술을 활용해 모델 전송 횟수를 최소화하면서 모델 성능을 유지하고 개선하는 방법을 개발했다. 이 방법은 기관에서 생성한 이미지와 모델을 활용해 중앙 서버에서 모델을 학습하는 것인데, 생성된 이미지와 지식 증류를 통해 모델을 학습하는 과정을 개선했다.

연구팀은 해당 기술을 활용해 현미경, 현미경영상, 피부경영상, OCT, 병리영상, X레이영상, 안저영상에 대한 분류과업을 수행했다. 그 결과 기존 연합학습 기법과 비교했을 때 우수한 분류 성능을 나타내는 것을 확인했다.

박상현 교수는 “이번 연구를 통해 데이터 및 개인정보를 공유하지 않고 학습에 참여한 모든 기관에서 범용적으로 작동하는 모델을 학습할 수 있다”며 “의료현장에서 대규모 AI 모델을 개발하는 비용을 획기적으로 줄일 수 있을 것”이라고 말했다.

DGIST 일반사업과 한국연구재단의 신진연구지원사업을 통해 수행된 이번 연구성과는 우수성을 인정받아 이달초 영상분석 분야 최상위 저널인 '의료 영상 컴퓨팅 및 컴퓨터 지원 인터벤션(Medical Image Computing and Computer Assisted Intervention)'에 게재됐다.

대구=정재훈 기자 jhoon@etnews.com