GIST, '스타크래프트 II' 상황예측·의사결정 획기적 향상 기술 개발…자율주행 등 응용

대리 모델 기반의 MCTS 동작 개념도.
대리 모델 기반의 MCTS 동작 개념도.

광주과학기술원(GIST)은 안청욱 인공지능(AI)대학원 교수팀이 대체 모델을 기반으로 개발한 몬테카를로 트리 탐색(MCTS) 방법을 실시간 상용 비디오 게임인 '스타크래프트 II'에 적용해 1만 배 빠르게 게임 상황을 예측함으로써 탐색 효율성과 성능 안정성을 획기적으로 향상킬 수 있는 기술을 개발했다고 25일 밝혔다.

MCTS는 복잡하고 불확실성이 있는 환경에서 의사결정을 위한 체험적 탐색 알고리즘이다. 게임을 할 때 주로 적용한다. 어떻게 움직이는 것이 가장 최적의 판단인지를 분석하면서 검색 공간에서 무작위 추출에 기초한 탐색 트리를 확장하는 데 중점을 둔다.

무작위 시뮬레이션을 기반으로 상황 예측에 대한 기댓값을 추정하는 기존 MCTS 기법은 실행 시간이 오래 걸리고 복잡해 높은 연산량이 요구되는 실시간 상용 RTS 게임에 적용하는 데 한계가 있다. 대표적 실시간 전략 게임인 스타크래프트 II는 각 게임 참여자가 제한적 환경 관측만 가능한 여건에서 자원 확보와 상대편의 종족·동태 등을 종합적으로 고려해 게임을 운영해야 하기 때문에 복잡성이 매우 높다.

연구팀은 새로운 강화학습법을 통해 가상으로 재현된 게임 데이터를 학습해 대체 모델을 구축하고 이를 활용해 시뮬레이션의 일부 결과만으로 상황 예측에 대한 기댓값을 추정할 수 있는 대체 모델 기반 MCTS 기법을 제안하고 스타크래프트 II에 적용해 성능을 검증했다.

왼쪽부터 안창욱 AI대학원 교수, 이동현 박사과정생.
왼쪽부터 안창욱 AI대학원 교수, 이동현 박사과정생.

기존 MCTS와는 달리 대체 모델을 활용해 게임 내 상태에 대한 기댓값을 시뮬레이션 없이 바로 추정해 짧게는 몇 분에서 길게는 몇 시간 걸리던 시뮬레이션 추론 시간을 밀리초(1000분의 1초)에서 초 단위 범위로 줄이는 데 성공했다. 연구 확장성과 재현성을 높이기 위해 대체 모델 학습을 위한 데이터 수집과 스타크래프트 II에서 데이터 분석이 가능한 자체 소프트웨어를 구현하는 데 성공했다.

연구팀은 수집한 데이터를 기반으로 대체 모델을 학습한 후 적용한 결과, 게임의 진행 결과를 기존 MCTS 대비 1만(104) 배 빠르게 예측했다.

안창욱 교수는 “이번 연구 성과는 몬테카를로 트리 탐색 기법의 활용이 불가능하던 실시간 게임 환경에서 각 개체의 실시간 행동인 공격과 후퇴 등을 결정을 가능하게 했다는 데 의의가 있다”며 “향후 상충하는 이해관계 갖는 실세계 응용 문제인 자율주행, 주식거래 등 실시간 의사결정을 내리는 데 활용할 수 있을 것으로 기대된다”고 말했다.

이번 연구는 한국연구재단 중견연구자지원사업과 정보통신기획평가원(IITP) 인공지능대학원 사업의 지원을 받아 이뤄졌다. 연구 결과는 다학제 공학 분야 상위 2.5% 국제학술지 '인공지능의 공학적 응용'에 최근 게재됐다.

광주=김한식 기자 hskim@etnews.com