데미스 하사비스 구글 딥마인드 CEO가 두 신경망을 통한 직관 모방이 알파고 핵심이라고 강조했다. 머신러닝을 통해 스스로 원리를 학습하도록 했다. 복잡도가 높은 바둑에서 기존 프로그램 대비 성능을 대폭 개선했다.
하사비스 CEO는 8일 광화문 포시즌스호텔에서 알파고와 이세돌 9단 대국 전 열린 기자간담회에서 “알파고 핵심은 신경망 접근 방식을 택한 것”이라며 “거대한 탐색 공간과 승률 계산 어려움이라는 두 가지 문제를 해결했다”고 설명했다.
바둑은 복잡도가 높은 게임이다. 체스와 비교가 힘들 정도다. 체스가 한 위치마다 가능한 수가 평균 20개 정도라면 바둑은 200개에 이른다. 하사비스 CEO는 “딥마인드가 바둑에 관심을 가진 것은 인간이 만든 가장 복잡한 게임이기 때문”이라며 “바둑은 경우의 수가 10의 170승으로 전 세계 원자 수보다 더 많다”고 말했다.
알파고는 정책망과 가치망이라는 두 가지 신경망을 이용한다. 정책망은 모든 경우의 수를 계산하지 않게 수를 줄여준다. 가치망은 이 가운데 승률이 가장 높은 수를 판별해낸다. 이런 과정으로 인간 직관 영역을 흉내낸다. 하사비스 CEO는 “바둑은 수가 너무 많아 직관이 중요한 게임”이라며 “인간 프로그래머가 누가 이기고 있는지 평가하기 위한 함수를 일일이 만들기 불가능하다”고 지적했다.
기계학습을 통해 스스로 원리를 터득한다. 인간 전문가 데이터를 내려 받아 경기를 모방하게 한다. 이를 통해 기본 원리를 학습한다. 모방에서 나아가 전문가를 뛰어넘도록 알파고 대 알파고 자가경기를 한다. 이를 통해 3000만건 위치를 데이터로 만들었다. 하사비스 CEO는 “처음에는 인간 전문가 기보 10만개를 학습하게 해 모방하게 한 뒤 수십만번 자가경기를 펼치며 발전한다”고 설명했다.
기존 바둑 프로그램 대비 성능을 대폭 개선했다. 크레이지스톤, 젠 등 기존 바둑 프로그램과 대결해 495전 494승을 기록했다. 유럽 챔피언 판후이와 경기 결과 5전 전승을 거뒀다. 컴퓨터 프로그램 처음으로 인간 바둑 전문가와 호선으로 겨루게 됐다. 하사비스 CEO는 “학습을 통해 측정 때보다 차이가 더욱 커졌다”며 “프로 바둑기사와 맞상대할 실력을 쌓는 기간을 전문가 예상보다 10년 앞당겼다”고 평가했다.
바둑 정복이 궁극적 목적이 아니다. 범용 알고리즘인 만큼 인공지능 기술을 통해 사회적 난제 해결이 목표다. 기존 딥블루 등 기존 인공지능 알고리즘은 과제 하나에 맞춰졌다. 다른 상황을 만나면 해결이 힘들다. 알파고는 스스로 학습해 해결하는 만큼 여러 분야에 적용 가능하다. 하사비스 CEO는 “지능을 분석하는 것이 가장 큰 목적”이라며 “인류에 영향을 미치는 분야에서 범용 알고리즘으로 스스로 학습해 예측 불가능한 과제를 해결하게 할 것”이라고 말했다.
오대석기자 ods@etnews.com