見出し画像

囚人のジレンマを復習して分かった興味深い話

皆さんは囚人のジレンマはご存知だろうか。

主に経済学や経営学などの分野で扱われる「ゲーム理論」に出てくる問題である。

この問題、ゲーム理論では教科書の一番最初に習うような初歩中の初歩なのだが、解説までできる人は世の中にどれくらい存在しているのだろうか。

僕は経済・経営系の学部出身でゲーム理論も履修していたので、囚人のジレンマくらいはもちろん知っている。
だが、解説できるかといわれると怪しい。というレベルだ。

洽覧深識な皆さんにとっても常識レベルかもしれないが、恥ずかしながら一般的な文系大卒人間のぼくにはこの程度のことも難しい。

しかし、どうやら世間的にもそのようである。
蘊蓄おじさんを自称しているゆる言語学ラジオのお二人も、囚人のジレンマについては解説はできるが用語の意味などは少し怪しいというレベルだったので少し安心した。

というわけで、本投稿は別に専門家でもなんでもない僕が、僕の解釈で囚人のジレンマを解説するという、あまりにも不誠実な内容の投稿だ。
だが、僕自身囚人のジレンマを復習したかったし、囚人のジレンマ関連の面白い話も聞いたのでそれを知ってほしい、というモチベーションで書いている。
本当に授業でならうような数式を使った解説はしない。というかできる自信がないので、文系っぽく説明する。

なお、厳密な考証は行っておりませんので、ご了承のうえでお読みください。
もし間違いがあればご指摘いただけると嬉しいです。

問題設定

囚人のジレンマは以下のようなシチュエーションを考える。

共犯だと思われる囚人Aと囚人Bは、それぞれ別の牢獄に入れられている。
しかし二人はなかなか口を割らない。
そこで看守が司法取引を持ち掛けた。
・このまま2人とも黙秘し続ければ二人とも懲役2年
・片方が自白すれば、自白した方はその場で釈放。黙秘していた方は懲役10年
・両方が自白すれば二人とも懲役5年
このとき、二人の囚人は黙秘すべきか、自白すべきか。

つまり、図にまとめるとこうなる。


さて、皆さんはどう考えるだろうか。
自分が囚人だったらどんな行動を取るか、少し考えてみてほしい。

ゲーム理論的解答

もちろん、この問いに絶対的な正解はない。
各人のイデオロギーによっても変わってくるだろう。

ここではゲーム理論的に、どんな思考回路で考えていくかを解説する。

まず、この二人にとって最善の結果とはなんだろう。
それはもちろん二人とも黙秘した場合である。
2人とも刑期は2年になり、合計は4年である。
どちらかが自白してしまうと黙秘していた方は刑期が10年になり、元の2年よりも伸びてしまう。
このように、二人にとって最善の状態をパレート最適とかパレート効率的という。
もっと正確にいうと、与えられた選択肢の中で、誰かの状況を良くしようとしたら別の誰かの状況が悪くなってしまう、資源が最大限活用されている状態である。

このことから、二人とも黙秘という選択をするのが最善のように思える。
では、次に各個人の選択にフォーカスを当てて考えていく。

まず囚人Aだ。
囚人Aにとって、どちらの行動を取るのが合理的だろうか。
一見すると、黙秘して二人とも懲役2年を狙うのが合計の刑期が最も短くなり合理的に思える。
しかし、Bの行動が分からない。
そこでAは、Bがどちらの行動を取ったとしても損にならない選択を取ろうと考える。
もしBが自白した場合、Aは黙秘していたら懲役10年で、自白したら懲役5年である。
このことから、Bが自白すると仮定するとAの行動は「自白する」に決定される。
もしBが黙秘した場合、Aは黙秘していたら懲役2年だが、自白すれば懲役0年になる。
するとAの選択はやはり「自白する」に決定される。

(B)自白 ⇒ (A)黙秘:10年 < 自白:5年
(B)黙秘 ⇒ (A)黙秘:2年 < 自白:0年

つまり、Bがどの行動を取ろうともAの選択は「自白する」が合理的となる

一方、囚人BもAと同様の思考を辿るはずである。
そして、結果的に二人とも自白し、懲役5年となってしまう

このように、各プレイヤーが自身の最適な選択肢を選んで行きつく状態をナッシュ均衡という。
より正確に表現すると、どのプレイヤーも選択を変更する誘因を持たない状態のことだ。

ここで重要なのは、ナッシュ均衡=パレート最適ではないということだ。
2人が合理的に判断していけば、結果的に懲役5年という最善ではない結果に行きつく。
これはガチでテスト頻出。

もう一歩進んでみる

ここまでは知っているという人も多いと思う。だが、個人的に面白いのはここからだ。

先ほどの状態はあくまで選択が1回きりの場合を想定している。
しかし、現実世界はそうではないことも多い。

囚人の設定のままだと分かりにくいので、別の状況を仮定してみる。
例えば、ヤンキーの喧嘩だとどうだろう。
AとBが喧嘩していて、相手を殴るかどうかを考えている。
お互い我慢して殴らなければ無傷だけど腹が立つ。
片方だけ殴れば殴った方は気持ちが晴れるし、殴られた方は大ダメージを負う。
二人で殴り合えば二人ともある程度の傷を負う。

こうなったとき、二人はどんな選択をするか。
前述の思考回路だと、二人とも「相手を殴る」という選択をするだろう。

だが、今回は脈々と続くヤンキーの社会を想定している。
1回目の選択結果を踏まえて、2回3回・・・と無限に選択が続いていく。
そうなったときに行動が変わるのが囚人のジレンマの面白いところである。

初回からお互い「相手を殴る」を選択するのも実は一つのナッシュ均衡であるのだが、無限に殴り合い続けるというのは得策ではない。いつか死んでしまう。
そうすると、お互い強調路線を歩むという選択肢も出てくる。
もしいつか相手が裏切ってきたら、こちらも裏切ってやればいいだろう。そんな感じの思考である。
もし一方が裏切れば、もう片方はメンツが潰されたと殴りにくる。そして、裏切った方も殴られてはメンツが立たないので、再び殴りに行くだろう。
そうして仕返しを死ぬまでし続けるという未来が訪れる。
でもそんなのは不毛だから、結果的に二人とも協調し続けるという選択を選ぶのだ。
これをトリガー戦略などと呼ぶ。
他にもこのような協調を選ぶような均衡状態は複数あることが知られている。

つまり、無限に繰り返されるゲームであれば、二人は協調を選ぶことが均衡となり得るということだ。

プルスウルトラ

というのが囚人のジレンマである。

では、現実世界における囚人のジレンマのようなシチュエーションはどんなものがあるだろう。
例えば、よく挙がる例は企業間の価格競争である。あとは国際間の軍縮などもそうだろう。
企業も国も、人類の営みなので寿命がある。つまり、これらは有限繰り返しゲームということになる。

そうすると、裏切りを選ぶことが均衡になるシチュエーションもたくさん存在する。
もし裏切りが横行すれば世も末である。戦国時代突入だ。

そこに一石を投じたのが釈迦である。

仏教には輪廻転生という概念がある。
死んでもそこで終わりではなく、六道と呼ばれる6種類の別の世界のどこかに生まれ変わるんだよーという考え方だ。

これは実に非合理的である。
まったくエビデンスがなければ、説明する論理もない。
「歩いている人は歩いていない」ということをロジカルに説明した超ロジカル人間の釈迦からこのような合理的理由を全く持たない輪廻転生という概念を生み出されたのは意外である。(歩いている人のやつを説明をしたのは釈迦じゃなく龍樹だった。)

きっとそれにもなにか理由があるのだろう。
なんてったって、物事は全て因果で成り立っているのだから。

じゃあどんな理由が?
それが、囚人のジレンマをパレート最適に導けるという理由だ。

先ほども記述したように、囚人のジレンマは無限繰り返しゲームなら協調の可能性が生まれてくる。
もともと死んだら終わりの有限繰り返しゲームだった人生を、死んでも生まれ変わる無限繰り返しゲームにすることで、世の中の民が争いなく支え合う世の中を実現しようとしたのかもしれない。

そう思うと、やっぱり釈迦って頭よかったんだなーって。

というお話を昔聞きました!
a scopeっていうポッドキャストのチャンネルです!
newspicksで記事化もされていたので気になったら読んでみてください。






この記事が気に入ったらサポートをしてみませんか?