【ゲーム理論】第2章 静学ゲーム
皆さん、こんにちは。和尚です。
さて、前回に引き続きゲーム理論について学んでいこうと思います。
前回の第1章の記事をまだ御覧になっていない方は、良ければそちらもチェックしてください。
本記事においては、筆者が学んだゲーム理論について学んだ内容をアウトプットすることを第一の目的としています。今回の内容は、同時手番ゲームとその基礎について。各プレイヤーが相互依存する、様々な状況のなかで最適な戦略を選択することについて学んでいきます。
ゲームを解く3つの手順
まずは、同時手番ゲームについて復習です。
同時手番ゲームとは、各プレイヤーがお互い同時に自身の手を明かすゲームのことです。例としては、じゃんけんなどが挙げられます。
一方、プレイヤーが順々に手を打ち合うゲームを逐次手番ゲームと言います。プレイヤーの行動決定のタイミングによって、ゲーム理論では大きく2種類にゲームを分類できるのです。
今回の内容は、すべて同時手番ゲームを想定したものになります。
同時手番ゲームはプレイヤー(主体)・戦略(行動計画)・利得(利益)の3つの要素によって構成されます。このように3つの要素によって構成されるゲームを戦略形ゲームと言います。
そして、ゲームの最終的な目標はそれぞれのプレイヤ―が選ぶ戦略とそれにより生じる結果を考えることです。これを「ゲームを解く」と言います。
「ゲームを解く」手順は以下の3つの手順に従います。
①自分の利得が最も高くなる戦略を考える。
(プレイヤーが「合理的」であることの仮定)
②相手がすべての戦略を選ぶことを想定し、そのどの場合についても自分が最も利得が高くなる戦略を考える。
(相手の打つそれぞれの戦略について、「最適反応」を求める)
③相手の立場についても、同様に①②を考える。
上記の手順に従い、得ることのできる、各プレイヤーの戦略の組とそのゲームの結果がゲームの解です。
利得行列
プレイヤー(主体)・戦略(行動計画)・利得(利益)が同時手番ゲームの3要素であることは前述したとおりですが、これをわかりやすく表現したものが利得行列です。この利得行列を用いることで、各プレイヤーがどの戦略をとった時に、それぞれどれだけの利得を得るのかが分かります。
支配戦略
プレイヤーの戦略選択において、相手がどのような戦略を選んだ場合においても、自分のある戦略がほかの戦略よりも常に利得が高くなる時、この戦略を支配戦略と言います。
例えば、自分が戦略Aと戦略Bという選択肢を持ち、相手が戦略Cと戦略Dという選択肢を持っているとします。ここで、相手が選択Cを選んだ場合、自分は戦略Aと戦略Bのどちらを選択する方が利得が高いかを考えます。
ここで、戦略Aの方が利得が高いとします。
次に、相手が戦略Dを選んだ場合についても、同様に考えます。そして、自分にとって戦略A選んだ方が戦略Bを選んだ時よりも利得が高くなるのであれば、自分の支配戦略は戦略Aとなります。
つまり、相手がどのような戦略をとってきたとしても、利得を高めるために自分のとるべき戦略がひとつに決定する時、この戦略が支配戦略となるわけです。
相手の立場でも、同様の事を考えてみましょう。
自分が戦略Aを選択した場合、相手は戦略Cを選んだ方が戦略Dを選ぶよりも利得が高いとします。そして、自分が戦略Bを選んだ場合においても、相手は戦略Cを選んだ方が利得が高い場合、相手にとっての支配戦略は戦略Cとなります。
両プレイヤーが支配戦略(自分は戦略A、相手は戦略C)をとっているこの状況がこのゲームの解となります。こうした支配戦略の組を支配戦略均衡と言います。
ナッシュ均衡
各プレイヤーが最適な戦略をとりあっている状態のことをナッシュ均衡と言います。この状態にあるとき、各プレイヤ―は最適な戦略をそれぞれとっていることから、片方のプレイヤーだけが戦略を変更しても、利得を増やすことのできない安定的な状態にあります。
先ほど出てきた支配戦略均衡も両プレイヤーが最適な戦略(支配戦略)をとっているので、ナッシュ均衡であるといえます。(ただし、ナッシュ均衡であるからといって支配戦略均衡であるとは限りません)
ナッシュ均衡を考案したのは、ジョン・F・ナッシュという数学者です。 彼は、混合戦略という考えを用いて、ゲームにプレイヤー、戦略がどれだけあろうと、それが有限である限り(有限ゲーム)、必ず1つ以上のナッシュ均衡が存在することをナッシュの定理で証明しました。
ナッシュ均衡は1つのゲームの中で複数存在することもあります。
例えば、先ほどの例を少し変えます。
相手が戦略Cをとった場合、自分が戦略Aを選ぶのが、利得が高くなる選択であるとします。(ここは変わりません)しかし、相手が戦略Dを選択した場合、自分は戦略Bを選ぶのが最適な反応だとしましょう。
同様に自分が戦略Aを選ぶ場合、相手は戦略Cを選ぶのが最適反応だとします。一方、自分が戦略Bを選んだ場合、相手は戦略Dを選ぶのが最適な反応だとします。
このとき、相手が戦略Cをとるのであれば、自分は戦略Aをとるのが最適戦略となるのと同様に、相手にとっても戦略Cを選ぶことは自分が戦略Aを選んだ場合の最適戦略となっています。戦略B、戦略Dの組み合わせにおいても同じことが言えます。
相手の戦略を所与として、各プレイヤーが最適な戦略を取り合っているのでこの状態はナッシュ均衡です。戦略Aと戦略C、戦略Bと戦略Dという二つのナッシュ均衡がこのゲームには存在していることになります。
ナッシュ均衡の定義としては、相手がナッシュ均衡をプレイすると予測されるとき、自分もナッシュ均衡をプレイすることが最適である戦略の組み合わせといえます。これは、相手がナッシュ均衡をプレイする限り、自分もナッシュ均衡をプレイすることが望ましいという誘因が生じる組み合わせ、又は相手がナッシュ均衡をプレイする限り、自分がナッシュ均衡でプレイすることを放棄しても、利得の増加が見込めないような組み合わせである、という事です。
囚人のジレンマ
各プレイヤーが合理的な選択・行動をすることによって、プレイヤー全体にとって望ましくない結果となることを囚人のジレンマと言います。
代表的な例として、二人の囚人A、Bがいるとします。この二人は共犯で、別々の部屋で取り調べを受けており、警察にこう言われます。
「両者が共に犯行内容を黙秘するなら、二人とも刑期は1年。ただし、君が自白したなら無罪。君が黙秘して、もう一人が自白したときは懲役15年。もし二人とも自白したときは、二人とも刑期は7年だ。」
このとき囚人Aにとって、囚人Bが「黙秘」した場合に利得が高くなる戦略は「自白」です。(「自白」→無罪 「黙秘」→刑期1年)また、囚人Bが「自白」した場合の最適な戦略も「自白」です。(「自白」→刑期7年 「黙秘」→刑期15年)よって、囚人Aがとるべき戦略(支配戦略)は「自白」となります。同様に、囚人Bにとっても、支配戦略は「自白」なので両者共に「自白」、つまり利得は共に刑期7年となります。
両者が「黙秘」することによって得られたはずの刑期1年より、遥かに望ましくない結果となってしまいました。このような「囚人のジレンマ」の問題は環境問題や、軍備の拡張など様々な場面で見受けられます。
このような事態を解決する方法として、ルールの変更があります。
ルールを変更することによって、支配戦略となっている戦略をとるよりも利得の高い別の選択肢を生み出し、支配戦略を変えさせることが可能です。
様々な同時手番ゲームの特徴
チキンゲームでは、2種類のナッシュ均衡が生じます。
崖に向かって走る2台の車に乗った2人の勝負で、先に車から降りた方の負け(臆病者=チキン)、というのがゲームのルールになります。この場合、両者のとり得る戦略は「直進」か「回避」です。両プレイヤーにとって最悪なのが二人とも「直進」を選択したことで崖から落ちてしまうことです。次に悪いは、自分が「回避」して、相手が「直進」。最も良いのは、自分が「直進」、相手が「回避」です。
勝負をする2人をプレイヤーA、プレイヤーBとするなら、相手の戦略を所与として最適戦略を取り合っている状態と定義されるナッシュ均衡は、「プレイヤーAが直進、プレイヤーBが回避」か「プレイヤーAが回避、プレイヤーBが直進」の2パターンとなります。
チキンゲームの最適戦略は相手の戦略次第で変化するのです。
調整ゲームでは、行動の調整の重要性が分かります。
例として、大口の預金者A、Bをプレイヤーとします。
経済不況により、銀行の経営が苦しくなっている状況で、預金者Aと預金者Bが互いに「預金を引き出さない」でおけば、銀行は経営を建て直し、預金者A、預金者B共に将来高い利息を得られます。(ここで得られる利得を10とします)しかし、片方の預金者が銀行の倒産を恐れ、預金を引き出すと預金の解約によって利得4を得ますが、もう片方は何も得ることはありません。(利得0)両方の預金者が預金を引き出した場合は、両者は何とか利得2を得られますが、銀行は破綻します。
ここでのナッシュ均衡は「預金者A、預金者Bが共に引き出さない(両者の利得はそれぞれ10)」か「預金者A、預金者Bが共に引き出す(両者の利得はそれぞれ2)」の2つです。前者はパレート効率的、後者はパレート非効率的といえます。特に、後者は「取り付け現象」にあたります。
ここで「行動の調整」に成功すれば、パレート効率的なナッシュ均衡が実現します。例えば、預金保険制度を設けることで預金者の行動を「引き出さない」に誘導するなどです。
実際の例では、昭和恐慌の際の「モラトリアム宣言」などがあります。
各プレイヤーの選択によって、全体の利得が増減するゲームがある一方で、一定の利得をプレイヤーが奪い合う(分け合う)ゲームも存在します。
それがゼロサムゲームです。ゼロサムゲームでは、自分の利得と相手の利得は表裏一体で、各プレイヤーの利得の合計が0になります。
ゼロサムゲームは純粋な利害対立のゲームなのです。
一方、プレイヤーの戦略次第で両者の利得が増えたり、減ったするものを非ゼロサムゲームと言います。
ゼロサムゲームの戦略のひとつにミニマックス戦略があります。
特徴としては、自分の利得を最大にすることを目的とするのではなく、最悪の結果を避ける戦略だという事です。
具体的には、自分の各戦略に対して相手がとる戦略によって、自分の利得が最小となるケースを想定し、それら最小の利得の中で最大の利得が得られる戦略を選択します。
ゼロサムゲームでは、一方の利得が増加した分、もう片方の利得は減少するため、相手はこちらの利得を最小化する戦略を選択すると考えることが妥当です。したがって、相手の戦略によって少なくなる自分の利得を最大にするよう考えます。(最小利得の最大化)
混合戦略
戦略をひとつに固定せず、確率的にランダムに打つ手を決定していく戦略を混合戦略と言います。これは、支配戦略やナッシュ均衡が存在しないときとる戦略となります。
混合戦略の例について見てみます。ここでは硬貨合わせゲームを扱ってみましょう。 二人のプレイヤーA、Bが同時にそれぞれ硬貨を表か裏のどちらかで出します。違う面が出たら、プレイヤーAの勝利。同じ面が出たら、プレイヤーBの勝利です。勝利したときの利得を10、負けたときの利得を-10とします。このとき、プレイヤーA、Bのどの戦略の組み合わせでも利得は対称となり、平等です。
このとき、合理的に1つの戦略を確実に選ぶことはできないため、有利になるためには自分が出す手を相手に予測されないように確率的に決定していくことになります。これが混合戦略です。
混合戦略におけるナッシュ均衡
前述の硬貨合わせゲームで、プレイヤーのとるべき戦略について考えます。Aが表を出す確率をS(裏を出す確率が1-S)、Bが表を出す確率をT(裏を出す確率を1-T)とします。打つ手の確率とその時得られる利得を掛けることで、期待利得を計算することができます。
そして、自分がどの戦略をとっても期待利得が変わらない状態を考えます。つまり、プレイヤーAにとって、プレイヤーBがどの戦略を選択した場合でも、期待利得が変わらない確率Sで戦略を決定します。
具体的には、まずプレイヤーBが表を出した時のAの期待利得を求めます。
このときプレイヤーAが表を出せば利得は-10なので、期待利得はプレイヤーAが表を出す確率S×(-10)。同様に、プレイヤーAが裏を出すときの期待利得は(1-S)×10。
よって、この場合の期待利得は、S×(-10)+(1-S)×10 ー ①です。
次にプレイヤーBが裏を出した時のプレイヤーAの期待利得を求めます。
このときプレイヤーAが表を出せば利得は10なので、プレイヤーAが表を出す確率S×10。同様に、プレイヤーAが裏を出すとき(1-S)×(-10)。
よって、この場合の期待利得は、S×10+(1-S)×(-10)ー ②です。
プレイヤ―Aは表を出した時の期待利得と裏を出した時の期待利得が等しくなるような確率Sを求めたいので、①式=②式となります。
これにより、S=0.5と求めることができます。プレイヤーBについても同様の計算ができるのでT=0.5となります。S=T=0.5はプレイヤ―A、Bが互いの戦略への最適反応となっており、混合戦略のナッシュ均衡となります。
まとめ
今回は、様々な同時手番ゲームとその基礎について学びました。
途中、利得行列の内容に入ってからはなかなか分かりづらかったかもしれません。実際には表を用いて考えるので、その場合は格段に理解しやすくなります。筆者がnoteで図表をつくることができず、本記事では文章での記述となりました。ただ、表などで直観的に理解したことを改めて文章化することで、より精緻な理解ができた実感があります。
言語化、大事ですね。
アウトプットの重要性も再認識し、俄然この取り組みに対するモチベ―ジョンが上がってきました。次の内容も楽しみです。
最後に、本記事は筆者がゲーム理論について学び、理解した内容をアウトプットする場として活用する、という側面があります。もちろん、最大限の努力をしますが間違いがないとは言い切れませんので、ご了承ください。
そのうえで、本記事が読んだ方にとって価値あるものになれば幸いです。
次回は、第2章 逐次手番ゲーム です。それでは。