로봇개가 단 한 시간 만에 스스로 걷는 법을 배웠다.
미국 캘리포니아대학 버클리캠퍼스 연구팀은 강화학습(RL) 알고리즘을 이용해 로봇을 훈련시켰다. 강화학습은 주어진 상태에 대해 최적의 행동을 선택하게 하는 학습 방법으로 기계학습(ML) 방법론 중 하나다.
흥미로운 점은 이 로봇개가 모든 과정을 시뮬레이터 없이 스스로 깨쳤다는 것이다. 연구팀은 로봇개에게 어떤 상황이 닥칠지, 어떤 행동을 해야 하는지 알려주지 않았다.
연구팀은 '드리머'(Dreamer)라는 알고리즘을 사용, 강화학습으로 로봇개를 훈련시켰다. 드리머 알고리즘은 과거 경험을 토대로 모델을 구축해 상대적으로 짧은 시간 내 로봇에게 새로운 기술을 가르칠 수 있다.
공개된 영상 속 로봇개는 처음엔 다리를 공중에서 흔들며 일어나려 발버둥 친다. 약 10분 뒤 간신히 구르는 데 성공, 하지만 여전히 일어나진 못한다.
30분이 경과하자 로봇개가 간신히 일어선다. 다소 어색한 모습이지만 걷기 시작한다. 로봇개는 불과 1시간 만에 스스로 걷는 방법을 깨우치고 연구실 안을 돌아다닌다.
로봇개가 걷는 법을 배운 뒤 연구팀은 로봇을 막대기로 찌르는 등 예측 불가능한 상황을 연출해 유사한 돌발 상황에 적응하는 법을 학습시켰다.
일반적인 로봇은 사전 시뮬레이션을 통해 학습한다. 하지만 시뮬레이션은 현실 세계만큼 정확하지 않기 때문에 이를 통해 학습한 뒤라도 막상 복잡한 실제 환경의 과제를 해결하는 데는 한계가 있다는 것이 연구팀 설명이다.
연구팀은 “실제 환경에서는 시간을 단축할 수 없고, 시뮬레이터는 실제 환경을 정확하게 포착하지 못한다. 물리 로봇에 강화 학습을 적용하는 것이 큰 도전인 이유”라며 “드리머 알고리즘의 한계를 파악하고 개선하기 위해서는 장기간의 트레이닝이 요구된다”고 전했다.
전자신문인터넷 양민하 기자 (mh.yang@etnews.com)