"민감 의료 데이터 '연합학습'이 대안"…6개 대륙·370만개 이미지 AI 학습시킨 인텔 연구진

“연합학습(Federated Learning)은 여러 의료기관이 보유한 방대한 환자 데이터를 이동시키지 않고도, 머신러닝 시킬 수 있는 방법을 제시했습니다. 데이터 유출 위험 없이 의료진에게 도움을 주는 우수 인공지능(AI) 모델을 만들었다는 데 의미가 있습니다.”

최근 펜실베니아대 페렐만의과대학(펜메디슨)과 악성 뇌종양 식별을 돕는 AI 개발을 위해 연합학습 연구를 수행한 제이슨 마틴 인텔랩 수석 엔지니어는 전자신문과 화상인터뷰에서 의료 분야 연합학습 연구의 의미를 이같이 설명했다.

제이슨 마틴 인텔랩 수석 엔지니어
제이슨 마틴 인텔랩 수석 엔지니어

인텔랩과 펜메디슨은 2020년부터 전 세계 71개 의료기관이 보유한 데이터셋을 활용한 대규모 연합학습 연구를 수행했다. 최근 학술지 네이처커뮤니케이션즈에 실린 연구 결과에 따르면 기존 뇌종양 분야 공공 데이터셋인 브라츠(BRATS)를 기반으로 학습한 동일 모델 대비 뇌종양 탐지율이 33% 향상된 것으로 나타났다.

이 모델은 6개 대륙에 걸쳐 6314명 교모세포종 환자로부터 얻은 370만개 이미지로 학습했다. 이는 공공 데이터셋 대비 29배 많은 양으로 이 분야에서는 최대 규모 프로젝트다. 우리나라에서는 연세대 의대와 서울아산병원이 참여해 보유한 환자 데이터를 바탕으로 모델을 학습시키는데 기여했다.

인텔과 펜실베니아대 의대가 협업해 연합학습 방식으로 개발한 인공지능(AI) 모델의 뇌종양 검출 능력이 기존 공공 데이터셋을 기반으로 학습된 모델 대비 33% 뛰어난 것으로 나타났다.
인텔과 펜실베니아대 의대가 협업해 연합학습 방식으로 개발한 인공지능(AI) 모델의 뇌종양 검출 능력이 기존 공공 데이터셋을 기반으로 학습된 모델 대비 33% 뛰어난 것으로 나타났다.

연합학습이란 사용자 데이터를 중앙서버에 보내지 않고 머신러닝 모델만 데이터 소유 기관으로 보내 각각 학습시킨 후 강화된 모델만 다시 중앙서버로 전송하는 방식이다. 여러 기관으로부터 데이터를 추출해 모델 학습이 이뤄지는 서버로 전송하는 기존 중앙집중식 학습과 비교해 데이터 손상이나 유출 위험 없이 머신러닝 모델을 훈련할 수 있다. 데이터 민감도가 높고 개인정보보호 규제로 데이터 활용 제약이 큰 의료 분야 활용도가 높을 것으로 전망된다.

"민감 의료 데이터 '연합학습'이 대안"…6개 대륙·370만개 이미지 AI 학습시킨 인텔 연구진
인텔과 펜메디슨이 수행한 연합학습 개념도
인텔과 펜메디슨이 수행한 연합학습 개념도

마틴 수석은 “실제 데이터를 기반으로 AI 모델을 구축해도 예상대로 작동하지 않는 경우가 있는데 연합학습을 통해 여러 지역의 다양한 데이터셋에서 모델을 입증하는 '연합입증'이 가능했고 여러 기관의 데이터셋 간 다양성에 대해서도 배울 수 있었다”고 “학습 과정에서 한 기관에서 발생한 데이터 오류를 나머지 기관의 모델과 비교해 발견한 일화도 있다”고 설명했다.

연합학습 연구는 아직 초기 단계로 향후 데이터 프라이버시가 중요한 영역에서 발전할 것으로 전망된다. 이를 위해 개발자 친화적인 환경 조성이 필요하다고 마틴 수석은 강조했다.

그는 “지금까지 연합학습을 어떻게 확대하고 좀 더 많은 사용 사례를 확보할 수 있을지 고민했다면 이제는 연합학습이 지속될 수 있도록 개발자 친화적인 방향으로 발전시키기 위해 노력하고 있다”면서 “머신러닝 모델 개발자들과 데이터 보유기관이 협업할 수 있도록 프레임워크를 세워야 할 것”이라고 말했다.

정현정기자 iam@etnews.com