AI가 스스로 업데이트해 성능 유지…KAIST, 학습데이터 선택 기술 개발

최근 인공지능(AI) 모델이 시간이 지남에 따라 성능이 떨어지는 현상이 발견되고 지속가능한 AI 학습 필요성이 커지는 가운데, 이 문제를 해결할 기술이 개발됐다.

한국과학기술원(KAIST·총장 이광형)은 황의종 전기 및 전자공학부 교수팀이 시간에 따라 데이터 분포가 변화하는 드리프트 환경에서도 AI의 정확한 판단을 돕는 학습 데이터 선택 기술을 개발했다고 14일 밝혔다.

AI의 대부분 좋은 결과는 AI 모델 데이터 분포가 변하지 않는 정적인 환경을 가정해 얻어진다. 하지만 이런 가정과 달리 SK하이닉스 반도체 공정 과정에서도 시간에 따른 장비 노화와 주기적인 점검으로 센서 데이터 관측값이 지속해 변화하는 드리프트 현상이 관측되고 있다.

데이터와 정답 레이블 간 결정 경계 패턴이 변경되면, 과거 학습 모델 판단이 현재에는 부정확하게 돼 성능이 악화될 수 있다.

드리프트 환경에서 적절한 학습 데이터를 선택하는 예시. 과거 데이터에서 현재 모델 학습에 도움이 될 수 있는 데이터를 선택하고, 피해를 주는 데이터는 제거해 최적의 학습 데이터를 구성한다.
드리프트 환경에서 적절한 학습 데이터를 선택하는 예시. 과거 데이터에서 현재 모델 학습에 도움이 될 수 있는 데이터를 선택하고, 피해를 주는 데이터는 제거해 최적의 학습 데이터를 구성한다.

연구팀은 데이터 학습시 AI 모델 업데이트 정도·방향을 나타내는 '그래디언트'를 활용한 개념이 드리프트 상황에서 효과적인 학습 데이터 선택에 도움을 줄 수 있음을 이론·실험적으로 분석했다.

데이터 분포와 결정 경계가 변화해도 지속 가능한 데이터 중심 AI 학습 프레임워크를 제안했다.

이 학습 프레임워크 주요 이점은 드리프트 주요 원인인 데이터 자체를 직접 전처리해 현재 학습에 최적화된 데이터로 바꿔주는 것이다. 기존 AI 모델 종류에 상관없이 쉽게 확장할 수 있다.

시간이 흘러 데이터 분포가 변화돼도 AI 모델 성능, 즉 정확도를 안정적으로 유지할 수 있었다.

황의종 교수는 “AI가 변화하는 데이터에 대해서도 성능이 저하되지 않고 유지하는데에 도움이 되기를 기대한다”고 말했다.

이번 연구에는 김민수 KAIST 전기 및 전자공학부 박사과정이 제1저자, 황성현 박사과정이 제2저자, 황의종 교수가 교신 저자로 참여했다. 이번 연구는 지난 2월 '국제 AI 학회(AAAI)'에서 발표됐다.

한편 이 기술은 SK 하이닉스 인공지능협력센터(AICC), 정보통신기획평가원(IITP), 한국연구재단 지원 과제의 성과다.

김영준 기자 kyj85@etnews.com