이세돌과 바둑 대결을 벌이는 알파고 핵심은 두 개의 신경망으로 ‘직관을 흉내내는 것’이다. 인간 기사가 바둑을 둘 때 모든 경우의 수를 검토할 수는 없다. 돌을 ‘둘 만한’ 곳을 찾아 수를 읽는다.
알파고는 체스를 정복한 ‘딥블루’와 달리 모든 수를 계산하지 않는다. 바둑은 체스에 비해 경우의 수가 많아 불가능하다. ZEN, 크레이지스톤 등 기존 최고 바둑 프로그램과도 다르다. 기존 바둑 프로그램은 확률에 기반한 알고리즘이다. ‘기보를 통계 내 보니 어느 곳에 두면 확률적으로 어느 정도 이긴다’는 식으로 평가한다. 장병탁 서울대 컴퓨터공학부 교수는 “바둑의 복잡도가 어마어마하기 때문에 지금까지 사례를 다 넣어도 아직 안 가본 공간이 많이 있다”고 지적했다.
알파고는 정확한 판단을 위해 ‘정책망(the policy network)’과 ‘가치망(the value network)’을 이용한다. 정책망은 바둑 기사가 보통 현재 시점에서 어디에 착수하는지 판단한다. 모든 경우의 수 가운데 둘 만한 곳을 추려낸다. 가치망은 착수가 어떤 결과를 가져오는지 계산한다. 압축된 대안 중 가장 승리 가능성이 높은 곳을 판단한다. 정책망과 가치망의 계속되는 협력이 알파고 심장이다. 두 개 망으로 바둑의 엄청난 계산 복잡도를 획기적으로 줄인다.
머신러닝 한 종류인 ‘딥러닝’으로 실제 ‘바둑두는 법’을 깨우쳐야 하는 이유다. 알파고는 바둑 고수 온라인 대국 기보 16만개를 확보했다. 3000만개 이상 착점을 학습했다. 이를 통해 기존 바둑 프로그램과 대결에서 494승 1패라는 압도적 기량을 보였다.
한계도 존재한다. 여러 차례 강화학습으로 원리를 깨우쳤지만 이세돌 9단 같은 높은 수준 기보를 얼마나 확보했는지는 미지수다. 수준이 떨어지는 기보로 학습하면 승부에 질 가능성이 커진다. 머신러닝이 약도 주고 병도 준 셈이다.
이 9단 맞춤형 학습도 변수다. 맞춤형 학습이 필요하지만 지나치면 전체 원리를 해칠 우려가 있다. 이 9단이 전혀 다른 기풍 대국을 펼칠 가능성도 있다. 김진한 스탠다임 대표는 “이 9단에게만 맞추면 바둑 기본이 흔들릴 수 있다”며 “기본 원리는 해치지 않으면서 이 9단 기풍에 더 최적화된 세밀한 접근이 필요하다”고 지적했다. 김 대표는 “바둑 전문가와 기술 전문가가 함께 해야 한다”며 “알파고 자체 문제라기보다 딥마인드 역량에 달린 일”이라고 덧붙였다.
오대석기자 ods@etnews.com