[SW교육] 알파고가 바둑을 공부하는 방법

발행일 : 2017-04-13 17:00 지면 : 2017-04-14 16면

알파고. 아마 지난해 가장 많이 들어본 단어일겁니다. 구글이 만든 인공지능(AI)이죠. AI가 뭔지 궁금한 친구들도 있을 거예요. 시키지 않아도 스스로 공부해서 발전하는 프로그램을 AI라고 합니다.

알파고는 지난해 바둑기사 이세돌 9단과 대결을 펼쳐 4대 1로 이겼습니다. 바둑은 돌을 놓을 수 있는 방법이 엄청나게 많아 그동안 사람만이 할 수 있는 영역으로 여겨져 왔죠. 바둑알을 놓는 위치를 정하는 것은 단순히 답을 맞추는 것을 넘어, 판세와 상대를 읽는 이해가 필요하기 때문입니다. 우리는 이것을 '직관' 혹은 '창의성'이라고 부릅니다. 근거는 없지만 경험을 통해 가장 좋은 방법을 찾아내는 인간의 능력이죠.

AI는 인간이 아니기 때문에 '직관'을 가질 수 없어요. 대신 방대한 데이터를 근거로 빠르게 계산하는 능력은 인간보다 낫죠. 알파고는 이 능력이 가장 뛰어난 AI입니다.

스스로 학습한다는 의미에 대해 더 알아보죠. 알파고가 바둑을 학습하는 과정을 보면 AI가 어떻게 발전하는지 알 수 있어요.

바둑은 돌을 놓을 수 있는 '경우의 수'가 무한대입니다. 정해진 패턴이 없죠. 상대가 어떻게 움직일지 예측하기 굉장히 어렵습니다. 바둑의 엄청난 복잡성을 해결하기 위해 알파고는 '지도학습'과 '강화학습' 강점을 결합해요. 지도학습은 바둑을 배우는 단계에요. 알파고는 프로 바둑기사들이 쌓아놓은 기존 대국을 데이터로 만들어 익힙니다. 그리고 '이런 상황에서는 이렇게 두는 것이 최선이다'라는 개념을 익히는 거죠.

강화학습은 알파고가 가진 핵심 기능입니다. 지도학습으로 쌓은 데이터를 가지고 실제로 바둑을 두는 것이죠. 스스로 두 명을 설정해 바둑을 두기도 하고 바둑게임 사이트에서 사람들과 대국을 벌이기도 합니다.

알파고는 대국을 하며 특정 위치에 놓인 돌을 보고 승리 확률을 예측합니다. -1(상대편의 승리 확실)부터 1(알파고의 승리 확실)까지 점수를 매겨요. 이 수치를 점점 1에 가깝게 만들어 가는 것이 알파고가 바둑을 두는 내내 하는 계산입니다.

상대방이 바둑판에 돌을 놓으면 알파고는 그동안 쌓은 자료에서 비슷한 상황을 빠르게 탐색합니다. 그리고 기존에 가장 많이 두었던 수를 따라 돌을 놓습니다. 광범위한 탐색 과정을 거친 뒤 최적의 수를 선택하는 방식이에요. 컴퓨터 계산능력이 인간의 직관에 가까워진 셈이죠.

알파고는 동시에 수많은 상대와 바둑을 두며 지도학습에서 쌓은 데이터를 보강해 나갑니다. 우리가 흔히 이야기하는 복습이죠. AI는 장소와 시간 같은 물리적 제약을 받지 않기 때문에 인간이 수천 년 동안 쌓아온 경험을 단 몇 시간 안에 체험하는 것이 가능해요.

알파고는 이런 훈련 과정을 거쳐 바둑판을 이해하는 단계로 진화합니다. 알파고는 올해 중국 최고 바둑기사인 커제와 대결을 펼칩니다. 이세돌 9단과 대결 할 때보다 더 강해졌다고 하네요. 1년이 지났으니 당연한 이야기겠죠?