2016년 2월 4일 목요일

‘심층 신경망’ ‘나무 탐색’ 알고리즘으로 인공지능(AI)의 ‘장벽’ 바둑까지 정복

 

프로 바둑기사 이긴 구글 인공지능 ‘알파고’ 승리 비결은?


구글의 자회사 구글 딥마인드가 개발한 인공지능 바둑 프로그램 ‘알파고(AlphaGo)’(왼쪽)와 유럽 바둑 챔피언이자 중국의 프로 바둑기사 2단인 판 후이(오른쪽)가 맞바둑 대결을 하고 있다. - 네이처 제공
구글의 자회사 구글 딥마인드가 개발한 인공지능 바둑 프로그램 ‘알파고(AlphaGo)’(왼쪽 선수)가 유럽 바둑 챔피언이자 중국의 프로 바둑기사 2단인 판 후이가 바둑 대결을 하고 있다. - 네이처 제공
‘인공지능(AI)’이 프로 바둑기사와 겨룬 바둑 대결에서 사상 최초로 완승을 거뒀다.

과학저널 ‘네이처’는 구글 딥마인드가 개발한 인공지능 컴퓨터 바둑 프로그램 ‘알파고(AlphaGo)’가 지난해 10월 유럽 바둑 챔피언이자 중국 프로 바둑기사인 판 후이(2단)와 벌인 공식 대결에서 5번 모두 이겼다는 소식을 28일 자 표지논문을 통해 소개했다.

● 반복적인 기계학습으로 바둑 실력 키운 ‘알파고’

그동안 바둑은 인공지능에게 가장 어려운 도전 중 하나였다. 체스의 경우 이미 1997년 IBM의 인공지능 체스 컴퓨터 ‘딥 블루’가 체스 세계 챔피언 가리 카스파로프를 이겼지만, 바둑은 지난 30년간의 노력에도 아마추어 수준에 머물러 있었다.

체스와 달리 행마 별로 움직이는 규칙이 정해져 있지 않고, 바둑 돌을 놓을 수 있는 지점도 361개여서 가능한 수가 매우 많기 때문이다. 일례로 첫 수를 주고받는 경우의 수만 12만9960가지나 된다. 평균 150수를 주고받는 바둑 경기로 계산해 보면 나올 수 있는 모든 경우의 수는 10의 170제곱이나 된다.

때문에 구글 딥마인드 연구팀은 알파고를 기존 인공지능 게임 프로그램과는 다른 방식으로 설계했다. 딥 블루의 경우 체스에서 승리하는 전략을 사용하도록 프로그래밍이 돼 있는 반면, 알파고는 바둑을 두도록 프로그래밍 돼 있지 않다. 패턴을 읽어내는 기본적인 알고리즘을 골격으로 삼았다.

알파고의 바둑 실력을 키우는 데는 ‘기계학습’을 이용했다. 주어진 데이터를 평가하고 처리하는 컴퓨터의 기본적인 학습 방식이다. 먼저 프로 바둑기사들의 경기에서 나온 약 3000만 가지의 수를 알파고에 입력해 학습시켰다.

바둑의 규칙은 바둑돌의 위치 데이터를 기반으로 익혀갔다. 이후에는 스스로와 겨루는 경기를 반복해 경험을 쌓으면서 학습 효과를 강화시켜나갔다. 매 경기를 마칠 때마다 실력은 계속 향상됐다.

알파고가 프로 바둑기사들의 대국에서 나온 수를 학습한 뒤(왼쪽), 이를 토대로 스스로와 바둑을 겨루면서 수를 두는 원리(오른쪽). - 네이처 제공
알파고는 프로 바둑기사들의 대국에서 나온 수를 학습한 뒤(왼쪽), 이를 토대로 스스로와 바둑을 두면서 학습 효과를 강화해 승률을 높였다. - 네이처 제공
● ‘딥 러닝’으로 최적의 수를 찾다

구체적으로 살펴보면 알파고는 매번 수를 둘 때마다 ‘심층 신경망(Deep Neural Network·DNN)’과 ‘나무 탐색(tree search)’ 알고리즘을 활용해 자신이 더 많은 집을 차지하려면 어느 위치에 바둑알을 놓고 어떻게 움직여야 유리할지 평가해 최적의 착점을 결정한다.

픽셀 단위로 바둑판을 분석해 판세를 읽을 수 있는 이미지 인식 기술도 사용한다. 불리한 수라고 판단되면 관련된 모든 경우의 수를 제외하는 방식으로 가능한 경우의 수를 줄여 기존의 한계를 넘어섰다.

DNN은 ‘딥 러닝’의 일종으로 바둑돌을 놓는 위치가 경기 결과에 미치는 영향을 분석해 이길 가능성이 높은 수를 찾는 알고리즘으로 이뤄져 있다. 이를 이용하면 방대한 데이터 속에서 핵심적인 내용만을 추출해 계산의 효율성을 높일 수 있다. 나무 탐색 알고리즘 역시 일정한 패턴에 따라 데이터를 묶기 때문에 빠른 계산이 가능하다.

그 결과 알파고는 다른 바둑 프로그램과 벌인 대결에서 승률 99.8%를 기록했다. 판 후이와 벌인 대결에서도 5번 모두 승리를 거뒀다.

이승진 고등과학원 수학부 연구원은 “기존 바둑 프로그램은 엉뚱한 수를 놓는 경우가 종종 있어 컴퓨터가 두고 있다는 사실을 금세 알아차리기 쉽다”며 “이번 대국에서 알파고는 이런 실수를 거의 하지 않아 마치 사람이 둔 것처럼 보였다”고 말했다.

알파고의 다음 도전 상대는 바둑 세계 챔피언인 우리나라의 이세돌(9단)이다. 오는 3월 서울에서 펼쳐지는 이 대결의 우승자에게는 상금 100만 달러(약 12억800만 원)가 주어진다.

딥마인드의 공동설립자인 데미스 해싸비스는 “완승을 거둔 판 후이와의 대국 결과를 고려하면 알파고는 프로 5단에 준하는 실력”이라며 “세계 챔피언과의 대결 결과는 아무도 예측할 수 없다”고 말했다.

알파고와 판 후이가 대결한 5번의 대국 중 마지막 두 경기. 바둑돌에 쓰인 숫자는 바둑돌이 놓인 순서를 의미한다. 알파고는 기존의 다른 바둑 프로그램들과 달리, 엉뚱한 수를 놓는 실수를 거의 하지 않는 등 사람과 매우 유사하게 바둑을 둔다. - 네이처 제공
알파고와 판 후이가 대결한 5번의 대국 중 마지막 두 경기. 바둑돌에 쓰인 숫자는 바둑돌이 놓인 순서를 나타낸다. 알파고는 기존 바둑 프로그램들과 달리, 엉뚱한 수를 놓는 실수를 거의 하지 않는 등 사람과 매우 유사하게 바둑을 둔다. - 네이처 제공
동아사이언스

댓글 없음: