見出し画像

ナッシュの定理と賞金付きジャンケン

これは飲みの場で聞いた話なので真偽の程は定かではないのですが、今年金融系の大企業に就職した私の友人は就活の面接でこんな質問をされたそうです。

「あなたは経済学部出身ということですが、大学で習った経済学の理論や定理等のなかで一番好きなものは何ですか?」

私はいわゆる就活質問(「学生時代に力を入れたことは?」とか、「あなたの強みは何ですか?」とか)には何も答えが思い浮かばず、それが原因の一部で就職活動をドロップアウトしてしまったのですが、そんな私にとってもこの質問はかなり面白い飲み会の話の種になりました。その場にいた数名で、その友人は何と答えたのか(もう忘れてしまいましたが、ファイナンス分野の新しい研究から持ってきた理論だった気がします。場面が金融系の企業の面接だから、それはかなり良い回答だっただろうという話になった記憶があります)、逆に自分たちなら何と答えるか、質問者はそれで何を知りたかったのかなどの話題でひとしきり盛り上がりました。

ナッシュの定理

さて、私もその時、もしその質問をされたら自分は何と答えるだろうか、と考えました。

おそらく私は「ナッシュの定理」と答えるでしょう。

(細かい説明を端折れば、)ナッシュの定理とは以下の内容を指します。

ナッシュの定理(Nash's theorem)
有限個の戦略を持つ戦略型ゲームには必ず、混合戦略ナッシュ均衡が存在する。

ゲーム理論に触れたことのある方以外には全く意味がわからないと思うので、簡単にですが内容を説明します(ちなみに、ゲーム理論が最も活用されている学問分野は間違いなく経済学ですが、ゲーム理論自体は経済学ではなく数学の一分野とされることが多いようです。この定理に名を冠しているジョン・ナッシュもWikipediaによれば数学者ですし、「それは経済学の定理じゃないだろ!」と面接官に詰められたら私は何も言い返せません。いや、「ナッシュはノーベル経済学賞をとってるんですよ!?」ぐらいは言い返すかも。まあそこは一旦保留させてください^^;)。

ゲーム理論とは、複数のプレイヤー間の戦略的な駆け引きを数学的に分析するための理論のことを指します。「囚人のジレンマ」ゲームなどが有名ですが、理論の守備範囲自体は、じゃんけんや将棋、チェス、対戦型のテレビゲーム、さらには政党同士の選挙での争い、国同士の戦争などなど、現実の社会で起こる無数の現象に及びます。「囚人のジレンマ」については過去のnoteで(自分で言うのもアレですが)それなりにわかりやすい解説を書いたつもりなので、ぜひそちらを読んでください(今回はその記事の進化版のような内容になると思います)

②たとえば最もシンプルで日常的なゲームとして、AさんとBさんが1回限りのじゃんけんをしているという状況を想像してみましょう。じゃんけんに勝つと1点もらえて、負けると1点ももらえません。あいこの場合は2人とも0点です。このとき、AさんとBさんにはそれぞれ「グーを出す」「チョキを出す」「パーを出す」という3つ(=有限個)の戦略が用意されていて、AさんとBさんはその中から同時に(=相手が何を選ぶかをお互いに知らない状態で)戦略を選択します(堅苦しい言葉を使っていて恐縮ですが、とってもフツーのじゃんけんのルールを想像していただければ大丈夫です)。
このような特徴のあるゲームを、戦略型ゲームと言います。専門的には、戦略型ゲームは「プレイヤー(=AさんとBさん)」「戦略(=グーorチョキorパー)」「利得(=勝つと1点、負けかあいこだと0点)」が定められている同時ゲームのことです。

戦略ゲームはこのような利得表で表現することができます

混合戦略ナッシュ均衡は、やや難解な概念なのでここでは雰囲気だけの解説になってしまいますが、簡単に言うと、「あるゲームにおける、最も合理的な、各戦略を選ぶ確率の配分」をすべてのプレイヤーが選んでいる状態のことです。
たとえば先ほどのシンプルなじゃんけんの例において、混合戦略ナッシュ均衡は両者とも「1/3の確率でグーを、1/3の確率でチョキを、1/3の確率でパーを出す」状態になります。言い換えれば、じゃんけんの最も「合理的な手の配分」は「グー・チョキ・パーをすべて等確率で出す」ことです。
これはよくある話なのですが、数学者や経済学者に「じゃんけんの勝率を上げる方法はありますか?」と聞くとお決まりの答えとして「常にサイコロを持ち歩いておいて、『1か2が出たらグー、3か4が出たらチョキ、5か6が出たらパー』のようなルールを決めてじゃんけんのたびにサイコロをこっそり振りましょう」のような話が返ってきます。人間にはどうしても「クセ」があるので、合理的な(=この場合は完全にランダムな)手の出し方をするためにはそういう方法が必要になるわけです。

余談ですが、昔「オイコノミア」というNHKの番組で日本を代表する経済学者・ゲーム理論家である安田洋祐さんとプロ格闘ゲーマーのウメハラさんが対談をする回がありました。その中で、「通常攻撃or掴み攻撃」のどちらかの戦略を選択するプレイヤーAと「ガードor反撃攻撃」のどちらかの戦略を選択するプレイヤーBを想定したゲームを、実際のストリートファイター5でのダメージ量を反映した利得表で考察するという話があり、理論上の混合戦略ナッシュ均衡(「p%で通常攻撃を、q%で掴み攻撃を選択する」)とウメハラさんの体感(「実戦ではこれくらいの割合で通常攻撃を選んでいると思います」)がほとんど一致したという結果になっていました。自分もゲーマーなこともあり、とても面白い企画として今でも印象に残っています。(「オイコノミア」、再放送してくれ〜泣)


これらを踏まえると、

ナッシュの定理(Nash's theorem)
有限個の戦略を持つ戦略型ゲームには必ず、混合戦略ナッシュ均衡が存在する。

とはつまり、有限個の戦略を持つ戦略型ゲーム(=各プレイヤーの出せる選択肢が「グー、チョキ、パーの3つ」のように、限定されているような同時手番のゲーム)には、絶対に、各戦略の選択確率にかんする合理的な解(=「グーを1/3、チョキを1/3、パーを1/3の確率で出す」のような、自分の利得を最大化させてくれる戦略の選び方)が存在するという意味出す。

私の思うこのナッシュの定理の美しいところは、この定理は、戦略型ゲームの形で表すことさえできれば、世界に存在するあらゆるゲームについて(少なくとも数学的には)「合理的な解」を必ず求めることができる、ということを保証してくれるところです(主観的な話で恐縮ですが、「すべての」とか「あらゆる」とか「任意の」のような言葉で特徴づけされる定理はたいてい美しいですよね!)。

それから、ナッシュの定理の証明には日本人数学者の角谷静夫が証明した「角谷の不動点定理」が用いられているというのも、日本人としてはちょっと嬉しいポイントです(もちろん「学問に国境はない」と思いますが)。

賞金付きじゃんけん

さて、twitterのTLで、このツイートが話題が話題になっていました。

リプライツリーでツイ主さん本人がおっしゃっていますが、これは典型的な戦略型ゲームなので、(比較的簡単に)混合戦略ナッシュ均衡を求めることができます。なので先述のナッシュの定理が、「合理的な解」が必ず存在することを保証してくれている問題なのです。(そういう意味では、ゲーム理論の枠組みの中で言えば、この問題は割と「正解の有るクイズ」です。)

【たぶん一番シンプルな解き方】
このゲームは対称ゲーム(=Aから見てもBからみてもゲームの形が全く同じ)なので、かなり楽に解くことができます。
Bがグーを出す確率をp、チョキを出す確率をq、パーを出す確率をrとします。
Aがグーを出すとき、得られる利得の期待値(期待利得)は10qです(0×p+10×q+0×r)
同様に、Aがチョキを出すときの期待利得は100r、パーを出す時の期待利得は1000pです。
混合戦略ナッシュ均衡はすべての戦略の期待値が等しくなる確率の組なので(その理由についてはこちらのサイトが解説してくれています)、10q=100r=1000x …①が得られます。
また、p+q+r=1 …②です。
①②を解くと、p=1/111(≒0.9%) q=100/11(≒90.1%) r=10/111(≒9%)となります。
対称ゲームであることから、AにとってもBにとっても、最適な戦略は「0.9%の確率でグーを、90.1%の確率でチョキを、9%の確率でパーを出す」であることがわかります。
(※ちなみに、この解き方はかなり限定的な例かつわりと理屈をガン無視しているやり方なので注意してください!きちんと両者の「最適反応」を調べるのが混合戦略ナッシュ均衡の正攻法の求め方です)

ちなみに、自動でナッシュ均衡を計算してくれる便利なサイトがあります。

つまり、この「賞金付きじゃんけん」の最適な答えはたとえばこうなるでしょう:「1から1000までの整数をランダムで出力する機械かプログラムを用意して、1〜9が出力されたらグー、10〜910が出力されたらチョキ、911~1000が出力されたらパーを出す」

理論がうまくいっていない?

ところが、ここで困ったことが発生します。同ツイートのリプライツリーになるアンケートを見ると、25000人以上の方が投票しているにも関わらず、「手」の分布は「グー0.9%、チョキ90.1%、パー9%」とはかけ離れているのです。

すべての人が先ほどの「1から1000までの整数をランダムで出力する機械かプログラムを用意して、1〜9が出力されたらグー、10〜910が出力されたらチョキ、911~1000が出力されたらパーを出す」のようなルールでゲームをプレーしていればこのような結果になるはずは(ほとんど)ないのですが、これはどういうことなのでしょうか。賞金がついていない「普通の」じゃんけんなら、おそらくナッシュ均衡(すべての手が33%ずつ)に近いアンケート結果になるはずなのに…??

とはさすがになりませんね。

もちろん、これはそれほど驚くべきデータではないでしょう。さすがに(私も含めて)手を選ぶときに、1以上1000以下のランダムな整数を頭の中に生成しようとする人はほとんどいないでしょう。要するに、人間の脳はコンピューターではなく、ゲーム理論が想定するほど「合理的」ではないのです。ある程度考えて手の出し方を計算する人でさえ、1000万円という金額の大きさに影響を受けたり、◯◯を出す人が多いだろうなどの希望的観測に基づいてしまったりすることは避けられないようです。

ゲーム理論だけでなく、いわゆる(かつての)「主流派」の経済学は完全合理性という仮定をさまざまなバリエーションで用いてきました。経済学が想定する、典型的な完全合理的な個人は、瞬時にあらゆる情報を取り込ことができる、適切な計算ができる、完全な記憶力を有している、そしてそれらの能力をもとに、常に最適な(自分の利得を最大化する)選択を下すことができる…など、実際の人間からはかけ離れた姿をしています。

もちろんこれにはこれで(非現実的だがシンプルであるからこその)いいことがたくさんありますが、しかしそのような非現実的な仮定に基づいて構築された理論は、必ずしも現実の世界をうまく説明してくれるとも限りません。今回はかなりはっきりとそれが出ている良い例です。

もちろん、だからといってナッシュ均衡のような理論がうまくいっていない、というわけでももちろんありません。今回のような1回限りで利得の設定が極端なゲームではアンケート結果が大きくずれてしまうこともありますが、理論上のナッシュ均衡と現実で観察されるデータが驚くほど重なるような研究もたくさんあります。理論とは道具であり、道具の性質(理論の全体像)とそれが効力を発揮するような場面を適切に見極めれば最高の知的な力になるでしょう。

そして、今回のような理論とうまく合致しない事例においても、ナッシュ均衡は参照点として有効に機能します。逆転の発想をすれば、ゲーム理論およびそれが教えてくれるナッシュ均衡解は、たとえそれが現実と乖離したとしても、今度は「なぜ現実のデータはナッシュ均衡通りにならないのか?」という新たな問いを提示してくれるのです。そして、それをもとに人間の認知や情報処理の癖(ヒューリスティクスやバイアス)を研究するための足がかりをも与えてくれます。

実際、現実の人間は経済学の理論通りの選択を行わないというイレギュラー(アノマリー)を説明するために生まれ、発展した行動経済学(=人間の限定合理性に基づいた研究)のような分野の大家たちのほとんどは、20世紀主流派経済学の理論的な蓄積がなければ今の研究はなかっただろうという旨のことを書いています。

理論と乖離するデータの出現は理論がうまくいっていない(現実をうまく説明できていない)という結論をすぐにはもたらしません。それはむしろ、学問にさらなる洗練の機会を与えてくれます。理論と現実(実証)の緊張と協力関係、そこから生み出されるさまざまな新しい研究や発想。そういった現代経済学のパラダイムの面白さにもつながる話が、この一連の「クイズ」の背後には有るような、そんな気がしました。

ちなみに:
もう一つの可能性として、「ナッシュ均衡をプレーすることが必ずしも合理的ではないかもしれない」という議論の方向性もあり得ます(非合理的なのは人間の方ではなく、ナッシュ均衡の方、という可能性)。
たとえばJulian Reiss "The Philosophy of Economics"のp.63〜80では「Is it Always Rational to Play Nash Equilibrium in One-Shot Games?」(「1回限りのゲームでナッシュ均衡をプレーするのは常に合理的か?」)などのテーマについて哲学的に掘り下げられており、合理的選択の理論としてのゲーム理論の説明性が有する疑わしさが論じられています。
ここで紹介するには内容があまりに込み入っているのと、自分は読んでもあまり腑に落ちなかったこともあり、ここではこういう論点もあるよという紹介だけにとどめさせていただきます。


この記事が気に入ったらサポートをしてみませんか?