KAIST, 딥러닝 서비스구축 비용 최소화하는 데이터 정제 기술 개발

연구팀에서 개발한 메타 질의네트워크 방법론의동작 개념도.
연구팀에서 개발한 메타 질의네트워크 방법론의동작 개념도.

한국과학기술원(KAIST·총장 이광형)은 이재길 전산학부 교수팀이 심층학습(딥러닝) 훈련 데이터 구축 비용을 최소화할 수 있는 새로운 데이터 동시 정제·선택 기술을 개발했다고 12일 밝혔다.

딥러닝용 훈련 데이터 구축 과정은 수집, 정제, 선택 및 레이블링 단계로 이뤄진다. 웹, 카메라, 센서 등으로부터 정제되지 않은 채로 데이터가 수집된다. 주어진 레이블에 해당하지 않는 '분포 외' 데이터가 포함된다 이런 데이터는 정제돼야 하고, 모든 정제 데이터에 정답지를 만들려면 막대한 비용이 소모된다.

연구팀이 개발한 기술은 훈련 데이터 구축 단계에서 데이터 정제 및 선택을 동시 수행해 심층 학습용 훈련 데이터 구축 비용을 최소화할 수 있도록 해준다.

가장 분포 외 데이터가 아닐 것 같은 데이터 중에서 가장 심층 학습 성능 향상에 도움이 될 데이터를 선택하는 식이다. 즉 주어진 훈련 데이터 구축 비용 내에서 최고의 효과를 내도록 데이터 순도, 정보도 지표의 최적 균형을 찾는다. 다만 순도와 정보도는 서로 상충해 최적 균형을 찾는 것이 간단하지 않다.

이 교수팀은 균형을 찾아내기 위해 추가적인 작은 신경망 모델을 도입했다. 새롭게 선택돼 레이블링 된 데이터를 순도-정보도 최적 균형을 찾기 위한 훈련 데이터로 활용했고, 레이블이 추가될 때마다 최적 균형을 갱신했다. 목표 심층신경망 성능 향상을 위해 추가 신경망을 사용했다는 점에서 '메타학습' 일종이라 볼 수 있다.

연구팀은 이 메타학습 방법론을 '메타 질의 네트워크'라고 이름 붙이고 이미지 분류 문제에 대해 다양한 데이터와 광범위한 분포 외 데이터 비율에 걸쳐 방법론을 검증했다.

이 결과, 기존 최신 방법론과 비교했을 때 최대 20% 향상된 최종 예측 정확도를 향상했고, 모든 범위의 분포 외 데이터 비율에서 일관되게 최고 성능을 보였다.

또 메타 질의 네트워크의 최적 균형 분석을 통해, 분포 외 데이터의 비율이 낮고 현재 심층신경망의 성능이 높을수록 정보도에 높은 가중치를 둬야 함을 연구팀은 밝혀냈다.

제1 저자인 박동민 박사과정 학생은 “이번 기술은 실세계 능동 학습에서의 순도-정보도 딜레마를 발견하고 해결한 획기적인 방법”이라며 “다양한 데이터 분포 상황에서의 강건성이 검증됐기 때문에, 실생활의 기계 학습 문제에 폭넓게 적용될 수 있어 전반적인 심층 학습의 훈련 데이터 준비 비용 절감에 기여할 것”이라고 밝혔다.

이재길 교수는 “이 기술이 텐서플로우나 파이토치와 같은 기존의 심층 학습 라이브러리에 추가되면 기계 학습 및 심층 학습 학계에 큰 파급효과를 낼 수 있을 것”이라고 말했다.

한편, 이 기술은 과학기술정보통신부 재원으로 정보통신기획평가원의 지원을 받아 SW컴퓨팅산업원천기술개발사업 SW스타랩 과제로 개발한 연구성과 결과다.

KAIST 데이터사이언스대학원에 재학 중인 박동민 박사과정 학생이 제1 저자, 신유주 박사과정, 이영준 박사과정 학생이 제2, 제4 저자로 각각 참여한 이번 연구는 최고권위 국제학술대회 `신경정보처리시스템학회(NeurIPS) 2022'에서 올 12월 발표될 예정이다.

김영준기자 kyj85@etnews.com