2016년 3월 8일 화요일

기존 신경망과 새 신경망이 대국해 스스로 능력을 끌어 올리도록 설계

바둑에서 승리 확률을 가장 높이는 것, 바꿔 말해 패배 확률을 최소화하도록 스스로 계산하는 것이 바로 알파고의 핵심 원리입니다.”

알파고 개발을 주도한 구글 딥마인드의 데이비드 실버(David Silver) 리서치 담당 과학자(사진)는 8일 경기도 성남시 분당구 경기창조경제혁신센터 국제회의장에서 ‘AI is Here-성큼 다가온 인공지능’을 주제로 열린 '2016 소프트웨어정책연구소(SPRi) 국제 컨퍼런스에서 알파고의 알고리즘을 공개했다.

[이세돌 vs 알파고]  데이비드 실버 박사 "기존 신경망과 새 신경망이 대국해 스스로 능력을 끌어 올리도록 설계"

실버 박사는 “바둑에서 사람은 직관을 통해 누가 유리한지 판단하는데 기계는 그렇게 할 수 없다”며 “알파고는 바둑 기사처럼 형세를 판단해 천문학적인 수준의 경우의 수에서 어떤 수를 두었을 때 승리할 수 있는지 판단하는 데 최적화하는 방향으로 발전했다”고 밝혔다.

알파고 연구팀은 인간을 이기기 위한 바둑 인공지능을 개발하기 위해 ‘몬테카를로 트리 탐색’과 ‘컨볼루션 신경망(Convolution Neural Network)’을 채택했다.

몬테카를로 트리 탐색은 한 수를 선택하면 다음 수에 대한 경우의 수를 가지 치는 형태(트리)로 인식해 유리한 선택을 하는 알고리즘이다. 컨볼루션 신경망은 수학의 함수를 이용해 이미지를 인식하는 딥러닝 기법 중 하나다.

다음은 실버 박사가 설명한 알파고 알고리즘에 대한 일문일답.

―몬테카를로 트리 탐색은 무엇인가.

“몬테카를로 트리 탐색은 인간이 사고하는 방식처럼 바둑에서의 경우의 수를 줄이기 위해 경우의 수를 나무 구조로 병렬 배치시켜 가장 유리한 선택을 할 수 있도록 하는 알고리즘이다.”

―컨볼루션 신경망은 무엇인가.

“컨볼루션 신경망은 인간이 눈으로 바라본 것을 뇌에서 인식하는 것처럼 컴퓨터가 이미지를 인지하고 데이터 형태로 처리할 수 있도록 하는 딥러닝 기법이다. 알파고는 컨볼루션 신경망을 적용해 19x19(361수)의 바둑판 상태를 입력하고 착수(바둑판에 돌을 놓는 것)를 입력값으로 파악한다.

알파고는 전문 바둑기사의 과거 기보를 통해 3000만 가지의 바둑판 상태를 추출해 데이터로 사용했다. 프로 바둑기사들의 착수 전략을 최대한 모방할 수 있도록 학습했다. 이를 바탕으로 12계층으로 된 첫 번째 인공신경망인 ‘정책망’을 만들었다.”

― 최적의 한 수는 어떻게 고르나.

“다음 돌을 놓을 위치를 선택하는 정책망에 하나의 신경망을 더 추가했다. 해당 위치에 돌을 놓았을 때 승리 확률을 예측하는 것이 가치망이다. 알파고는 정책망과 가치망이라는 2개의 심층 신경망을 활용해서 최적의 한수를 찾아낸다”

―강화학습을 위한 자체 대국 128만번 했다고 하는데 그 의미는.

“기존 정책망과 새로운 정책망이 대국하는 방식이다. 이를 통해 승률이 높은 경우를 추려내고 낮은 경우는 제외했다. 여기서 도출된 경기결과를 바탕으로 인공신경망의 가중치를 조정했다. 이런 강화학습을 통해 알파고의 성능은 갈수록 좋아진다.”

―체스 인간 챔피언을 이긴 딥블루와 알파고의 결정적인 차이점은.

“딥블루는 체스 그랜드 마스터의 정보를 입력해 모든 경우의 수를 검색했다. 반면 알파고는 정책망과 가치망을 통해 선별적인 검색을 하고 경우의 수를 줄여나간다. 딥블루가 2억개의 경우의 수를 고려했다면 알파고는 10만개를 고려한다. 그만큼 승리할 확률이 있는 수를 압축적으로 추려낼 수 있는 능력을 확보한 것이다.”

―이세돌 9단과 알파고를 정량적으로 비교 분석해보면.

“이세돌 9단의 나이는 33살, 알파고의 나이는 2살이다. 이 9단은 지금까지 3만 시간동안 훈련했는데, 이는 알파고도 동일하다. 이 9단은 초당 100개의 수를 고려하고, 알파고는 초당 10만개의 수를 검색한다. 이 9단은 프로 9단이고, 알파고는 아마 5~6단 수준이다. 또하나, 이 9단은 한 명의 인간의 뇌로 승부하지만 알파고는 100개의 GPU가 브레인 역할을 한다. ”
Chosun

댓글 없음: