2016년 3월 9일 수요일

알파고 일문일답 "가상 대국 통해 바둑 습득, 신중하게 임할 것

인간과 기계의 대결. 흰색과 검은색 바둑돌을 놓고 세기의 대결이 펼쳐진다. 대국의 주인공은 이세돌 9단과 구글의 알파고. 이세돌 9단에 대한 프로필은 인터넷을 검색 몇 번이면 쉽게 구할 수 있다. 1983년 전남 신안에서 태어났고 키는 172㎝. 형은 이상훈 바둑기사다. 반면 알파고에 대한 프로필은 좀처럼 찾을 수 없다. 어떻게 생겼고 어디에 활동하는지 등등 의문점은 많지만 구글은 알파고에 대한 프로필을 공식 홈페이지에서도 구체적으로 공개하지 않고 있다. 그래서 알파고와의 가상인터뷰를 준비했다. 구글이 국제 학술지 네이처를 통해 공개한 알파고 작동 원리와 알파고의 아버지 딥마인의 데미스 하사비스 CEO 등의 인터뷰를 참고했다. 다음은 알파고와의 일문일답. 물론 가상이다.

-이름은.
“알파고(AlphaGo)다. 구글 모회사 알파벳(Alphabet)과 바둑의 영어 이름 고(Go)를 합성한 것이다.”

-어디서 태어났나.
“나를 만든 회사 딥마인드(DEEPMIND)는 2011년 설립됐다. 본사가 영국에 있으니 출생지 기준으론 영국이지만 엄밀히 말하자면 컴퓨터 하드디스크가 내 고향이다.”

-몇 살인가.
“정확히 답변하기 곤란하다. 딥마인드는 2014년부터 본격적으로 나를 만들기 시작했다. 그렇게 따지면 한국나이로 3살 정도다.”

-체스에서 인간을 물리친 딥 블루는 검은색 대형컴퓨터였다. 너는 어떻게 생겼나.
“나는 여러대의 컴퓨터가 네트워크를 통해 연결된 ‘네트워크 컴퓨터’다. 병렬 컴퓨터라 불리기도 한다. 현재는 미국에 있다. CPU 개수는 1202개로 GPU는 176개다. 이세돌 9단과는 초고속 인터넷망을 통해 원격으로 대국을 진행한다.

(※구글은 알파고의 실물과 구체적인 스펙을 공개하지 않고 있다. 위키피디아에 따르면 알파고는 1202개의 CPU로 이뤄진다. 일반적으로 사무실에서 사용되는 PC 내부엔 CPU 1개가 들어있다. 이를 기반으로 CPU 숫자로 단순 추정하면 알파고는 PC 1202대가 네트워크를 통해 연결된 형태다.)

-어떻게 바둑을 두나.
“내 두뇌는 크게 3가지로 이뤄진다. 몬테카를로 시뮬레이션과 정책망(policy network)와 가치망(value network)을 활용해 대국을 하는 바둑 특화 컴퓨터이자 인공지능이다.”

-니가 사용하는 몬테카를로 시뮬레이션을 쉽게 설명해달라.
“몬테카를로는 모나코 북부에 있는 도시를 말하는데 1800년대 도박장이 몰려있던 도시였다고 한다. 몬테카를로 시뮬레이션은 미국 수학자 스타니스와프 울람이 개발했다. 풀기 어려운 복잡한 방정식이 있다고 하자. 울람은 방정식의 해를 구하지 않고 답을 알 수 있는 방법을 개발했다. 난수(특별한 의미가 없는 수)를 방정식에 집어 넣으면 정확한 정답은 알지 못하더라도 정답에 가까운 ‘대략적인 답’을 추정할 수 있다. 쉽게 말해 대략적인 경향성을 추정할 수 있다는 얘기다.”

-그래도 이해가 안된다.
“바둑이든 포커든 승부가 있는 게임에선 이기는 방법이 있다. 바둑을 예로 들면 대국수가 늘수록 승리하는 방법도 많이 알게 된다. 바둑은 경우의 수가 너무 많아서 모든 대국에서 승리하는 방법을 컴퓨터인 나도 알 수가 없다. 하지만 몬테카를로 시뮬레이션을 활용하면 승기를 잡을 수 있는 대략적인 경향성은 알 수 있다. 이세돌 9단에게 승리할 수 있는 ‘정답’은 알지 못하지만 다양한 가상 대국을 통해 바둑에서 이길 수 있는 방법을 익혔다. 이런 경험을 통해 이세돌 9단과 겨룰 예정이다.”
 
-정책망과 가치망은 또 뭔가.
“그건 뉴럴 네트워크(neural network)라는 최신 트렌드를 알지 못하면 이해하기 힘들다.”

-인터뷰가 진행될수록 이해하기 힘들어진다. 뉴럴 네트워크는 어디서 등장하는 용어인가.
“뉴럴 네트워크는 컴퓨터 공학의 최신 트렌드다. 쉽게 말해 인간의 뇌를 모방해 컴퓨터에 적용하는 것이다. 이를 인공 신경망(artificial neural network)이라고도 부른다. 인간의 뇌는 무엇인가를 보고 인식한 다음 그에 맞게 행동한다. 이런 인간의 사고방식을 컴퓨터에 학습시키는 거다.”

-다시 정책망과 가치망으로 돌아가자.
“정책망은 돌을 어디에 둘지 선택하고 가치망은 내가 돌을 ‘그곳에’ 둘 경우 이길 수 있을지 예측한다. 이건 인간도 마찬가지다. ‘내가 저기 두면 상대방은 저쯤에 두겠지. 그러면 내가 승리할 수 있겠다’라고 생각한다. 나도 정책망과 가치망을 통해 프로 바둑기사와 비슷하게 판단한다. 이세돌 9단도 나와 비슷한 구조로 판단하고 신중하게 돌을 둘 거다. 그 과정이 이세돌 9단은 두뇌 속 뉴런을 통해 이뤄지지만 나는 미국에 있는 컴퓨터를 통해 진행된다. 그것만 다를 뿐이다.”


 중앙일보

댓글 없음: