녹원학원 수학과학영재교육 010-3549-5206 : 결정이 필요한 순간, 합리적인 전략이 필요하다면?

2018년 3월 27일 화요일

결정이 필요한 순간, 합리적인 전략이 필요하다면?

내시균형, 죄수의 딜레마, 팃포탯(Tit for tat) 전략 등… 도처에서 발생하는 게임 상황에서 상대방의 반응을 충분히 고려하고 전략적으로 의사 결정
⊙ 운전, 물품 구매 등에서부터 전쟁에 이르기까지 다양한 상황에 응용 가능

: ‘내시균형’ 등을 생각해 낸 천재수학자 존 내시를 모델로 한 영화 〈뷰티풀 마인드〉.

생물학자 리처드 도킨스는 그의 저서 《이기적 유전자》를 통해 ‘매와 비둘기’라는 가상게임을 제안했다. 게임의 내용은 다음과 같다.

1. 하나의 집단은 ‘매파’와 ‘비둘기파’ 두 무리로 나누어진다. 무리의 모든 개체들은 두 무리 중 하나에 속하지만, 싸우기 전에는 상대가 ‘매파’인지 ‘비둘기파’인지 알 수 없다.

2. 매파는 전형적인 싸움꾼이다. 일단 싸움이 시작되면 한쪽이 죽기 전까지는 절대 굴복하지 않는 호전적인 성향이다.

3. 비둘기파는 누구에게도 상처를 주지 않는다. 싸움이 시작되면 곧바로 도망을 치는 전형적인 겁쟁이 성향이다.

4. 더 많이 살아남아 자신의 유전자를 남기는 쪽이 게임에서 승리한다.

만약 당신이 이러한 게임에 직접 참가한다면, 그리고 한 무리를 선택할 수 있다면 매파와 비둘기파 중 어느 무리에 속할 것인가?

어느 항로를 택할까?

영화 〈뷰티풀 마인드〉에서는 모이를 먹는 비둘기의 행동을 관찰하다 이를 수식으로 나타내는 천재 수학자 존 내시(John Nash)의 모습을 볼 수 있다. 실제로 그가 수식을 이용하여 비둘기의 행동을 예측하는 데 성공했는지는 알 길이 없으나, 매와 비둘기 게임의 전략을 관찰하기 위해 그가 연구했던 이론들을 생각해 볼 필요는 있겠다. 다음은 존 내시의 게임이론과 관련된 예시 문제이다.

존 내시.

1943년 2월, 일본군과 연합군은 뉴기니 섬에서 대치하고 있었다. 이때 일본군은 인근 섬의 북쪽 항로나 남쪽 항로 중 한 곳을 선택하여 이동시키려 하였다. 한편, 연합군은 북쪽 항로나 남쪽 항로 중 하나를 선택한 후 이동 예정인 일본군을 폭격하려 하였다. 이때 각각의 경우 연합군이 일본군을 폭격할 수 있는 기간은 다음과 같다.

존 내시의 이론에 따르면 일본군도, 연합군도 상대가 사용할 것이라고 예측한 전략에 대해 최선의 결과를 이끌어내는 선택을 해야 한다. 이를 ‘내시균형’에 도달했다고 한다. 보다 정확히 표현하자면, 나만 전략을 바꾼다면 오히려 더 나빠질 수 있는 최선의 선택을 해야 한다. 따라서 일본군은 최댓값을 최소화할 필요가 있으며, 연합군은 최솟값을 최대화할 필요가 있다.

위의 사례에서 일본군의 항로를 예측할 수 없는 연합군은 북쪽 항로를 선택할 경우 일본군이 어느 쪽으로 이동하더라도 2일의 폭격을 보장할 수 있지만, 남쪽 항로를 선택할 경우 최대 3일, 최악의 경우에 1일밖에 폭격을 하지 못하는 상황에 이르게 된다. 이때 명확한 답을 찾기 어려운 연합군의 입장에서는 일본군의 선택을 추측하게 된다.

어느 항로를 택할까?

어느 항로를 택할 것인가? 제2차 세계대전 당시 비스마르크해 해전 상황도.

일본군은 북쪽 항로를 택할 경우 연합군이 북쪽 항로를 택한다면 2일, 남쪽 항로를 택한다면 1일의 공격을 받게 된다. 한편 일본군이 남쪽 항로를 택할 경우 연합군이 북쪽 항로를 택한다면 똑같이 2일의 공격을 받지만, 남쪽 항로를 택한다면 3일의 공격을 받게 된다. 즉, 일본군은 명확히 북쪽 항로를 택할 것이라는 결과를 얻을 수 있고 이러한 결론을 바탕으로 연합군도 북쪽 항로를 선택하는 내시균형 상태에 도달한다.

내시의 이론에 따라 매와 비둘기 게임을 살펴보자. 우선, 상대가 매파인지 비둘기파인지 모르는 상태이므로 싸움은 매와 비둘기만이 아닌 매와 매, 비둘기와 비둘기 사이에서도 일어나게 된다. 이때 매와 매가 싸움을 벌일 경우 한쪽이 죽을 때까지 멈추지 않으므로 매의 개체 수는 절반으로 감소하게 된다. 한편, 매와 비둘기, 비둘기와 비둘기가 싸움을 벌일 경우 비둘기가 곧바로 도망치므로 약간의 상처를 입더라도 개체 수는 거의 줄어들지 않는다. 표로 확인할 경우 선택은 보다 명확하게 드러난다.

즉, 최솟값을 최대화해야 하는 생존율의 경우 비둘기를 선택하는 쪽이 현명하며, 게임에 참여하는 집단 내 매의 비율이 높을수록 이 차이는 두드러질 것이다.

죄수의 딜레마

한편, 프린스턴 대학교의 수학교수인 앨버트 터커(Albert Tucker)는 게임이론에 생소한 사람들을 위해 아래와 같은 ‘죄수의 딜레마’ 사례를 만들었다.

두 명의 사건 용의자 A, B가 사건 현장에서 체포되었다. 두 사람은 즉시 다른 감방으로 격리되었으며, 서로 다른 취조실에서 심문을 받게 되어 서로 의사소통을 할 수 없다. A, B의 범행 사실에 대해 확신하고 있지만 둘 중 한 사람을 특정하기에는 증거가 불충분하다고 생각한 수사진은 이들에게 다음과 같은 협상안을 제시했다.

1. 두 사람은 심문 과정에서 묵비권을 행사하거나 공범에 대해 불리하게 증언해야 한다. 만약 두 사람 모두 묵비권을 행사한다면 동일하게 1년형을 선고받는다.

2. A, B 중 한 사람이 묵비권을 행사하고 나머지 한 명이 상대에 대해 증언할 경우 전자는 즉시 석방되며 후자는 10년형을 선고받는다.

3. A, B 모두 상대에 대해 증언하면 두 명의 용의자는 각각 5년형을 선고받는다.

4. 두 명의 용의자는 상대의 선택을 절대 알 수 없다.

네 조건을 감안하였을 때, 두 용의자 모두 입을 열지 않고 1년형을 선고받는 상황이 최선일 것이다. 하지만 각 용의자의 입장에서 최선의 선택을 생각해 본다면 결과는 달라진다. A는 묵비권을 행사하거나 증언을 하는 두 선택이 가능하다. B의 상황을 모르는 A는 B가 묵비권을 행사한 상황과 증언을 한 상황을 가정할 수밖에 없다.

주어진 조건을 〈표 3〉과 같이 정리한 후 A의 입장을 살펴보자. B가 묵비권을 행사했다고 가정할 때 A는 묵비권을 행사할 경우 1년형을 선고받지만, B에 대해 증언을 할 경우 곧바로 석방될 수 있다. 또한 B가 자신에 대해 증언을 했다고 가정할 때 A는 B에 대해 증언하면 5년형을 선고받지만 묵비권을 행사할 경우 10년형을 선고받게 된다. 즉, A는 둘 중 어떠한 경우라도 B에 대해 증언을 하는 쪽이 유리하다는 결론을 얻을 수 있다. 한편, B의 입장에서도 이는 동등하게 작용하므로 결과적으로 두 용의자는 서로 상대에 대해 불리한 증언을 하게 되어 각각 5년형을 선고받게 된다.

결과적으로 죄수가 된 두 용의자는 함께 침묵할 경우 1년씩만 복역할 수 있음에도 불구하고 합리적으로 자신의 이익을 추구하는 선택을 시행하였음에도 둘 다 5년씩 복역하는 불리한 상황에 도달하였으므로 내시균형에 도달하는 것이 곧 최선의 결과를 이끌어내는 것과는 차이가 있음을 알 수 있다.

팃포탯(Tit for tat)

그렇다면 이제 구성원 전원이 비둘기파라고 가정하고 죄수의 딜레마 상황으로 돌아가 보자. 가상의 사회에서 비둘기들은 여전히 상대의 정체를 알 수 없으므로 신뢰할 수 없다. 따라서 같은 상황이 아무리 반복되더라도 최선의 전략은 상대에 대해 증언을 하는 ‘배신’전략을 선택할 수밖에 없어진다. 이러한 딜레마에서 벗어나기 위해 제시된 전략 중 하나가 바로 팃포탯(Tit for tat)으로 다음과 같은 원칙에 따라 행동한다.

1. 게임에 참가하는 사람들은 첫 만남에서 우호적인 자세를 취한다.

2. 두 번째 만남부터 참가자들은 상대의 행동을 복제한다.

이 전략에 따르면 사회 구성원 각자는 자신의 행동을 협력 또는 경쟁 그룹 구성원의 행동과 일치시키므로, 처음 협력으로 시작된 관계는 순조롭게 협조가 지속된다. 만약, 누군가가 개인의 이익을 앞세워 배신을 하거나 관계를 깨뜨릴 경우 곧바로 제3자와 연합 등을 통한 복수 등을 통해 이를 제지할 수 있다. 이는 적절한 용서를 통해 상대에게 관용을 베푼다는 전제하에 이루어진다.

이와 같은 전략은 사회 전반에서 다양하게 적용될 수 있다. 각 구성원들은 도처에서 발생하는 게임 상황에서 상대방의 반응을 충분히 고려하고 전략적으로 의사 결정을 하게 된다.

혼잡한 도로에서 운전을 하는 운전자들은 겁쟁이가 되지 않으려 핸들을 고수하는 대신 우선 양보한 후 상대의 행동을 기다린다. 싼 값에 물건을 사거나, 자신의 임금과 관련된 경제 협상 과정의 게임에서도 마찬가지로 적용할 수 있다. 또한 정치적 게임 과정에서 정책을 통해 유권자들에게, 혹은 경쟁 정당에 팃포탯 전략을 실행해 볼 수 있다.

물론 팃포탯 전략에도 몇 가지 약점은 찾을 수 있다. 예를 들어 총 100회가 시행되는 게임에서 마지막 회차의 게임임을 모든 경기자들이 인지한다면, 일회성 게임과 다를 바가 없어진다. 따라서 각 경기자들은 합리적 판단에 의거하여 딜레마 상황을 스스로 선택할 수 있다. 또한 팃포탯 전략에 동의하는 참가자들은 자신과 같은 전략을 사용하는 사람이 많을수록 이득이 커지므로, 만약 팃포탯 전략을 사용하는 경기자의 수가 적다면 별다른 이득을 기대할 수 없어진다. 그럼에도 다양한 사회적 문제 상황에 직면했을 때, 게임 이론을 기반으로 한 이러한 의사 결정 과정은 문제 해결을 위한 유용한 전략으로 활용되고 있다. 또한 수학의 언어를 통해 눈앞의 이익보다는 장기적 이익을 기대해 볼 수 있는 주요한 전략으로 여전히 기대되고 있다.⊙

월간조선

댓글 없음:

댓글 쓰기