とっておきのゲーム理論～エッセンスと使い方～

2020年5月31日 23:16

とっつきにくいゲーム理論の世界をシンプルに解説しました。
応用の範囲がとても広い考え方の枠組みです。

１．ゲーム理論とは何か

（１）「囚人のジレンマ」をザックリ理解しよう

① 囚人のジレンマとは

ここでは、ゲーム理論でよく使われる題材として「囚人のジレンマ」を紹介します。まずは「ゲーム理論」がどんなものかを知ってください。

＜問題設定＞
・「罪人2人」が不正容疑で取調べを受けています。
　 2人の名前は、H氏とM氏。
・仮に2人とも完全に黙秘すれば（十分な証拠がないため）、二人とも1年程度の刑で済むことはある程度予想できる状況にある。
・逆にどちらか一方が自白してしまって、不正で立件されると、最悪10年程度の刑になるだろうということも予想できる状況にある。

② 二人の容疑者の取り調べ

捜査官は、二人を連絡の取れない状態にして、M氏に自白を迫ります。
・「あなただけ素直に自白すれば、すぐに保釈され、世論や裁判官の心証も良くなるので、3年ぐらいに減刑されて執行猶予も付く可能性が極めて高いぞ。
・もし黙秘し続ければ、保釈なしで、世論や裁判官の心証も悪くなり、執行猶予の付かない実刑10年と思った方がいい。
・もしH氏が黙秘したとしても、不正取引で1年、さらに保釈なしだ。どちらが良いかよく考えなさい。

③ 利害関係の整理

・① 二人とも黙秘した場合　⇒1年実刑、保釈なし
・② 自分自白、相方黙秘の場合　⇒執行猶予つき3年、保釈あり
・③ 自分黙秘、相方自白の場合　⇒10年実刑、保釈なし
・④ 二人とも自白の場合　⇒10年実刑、保釈あり

さて、このとき何が起きるだろうか？
もし相手を信用できないとしたら、お互いに自白をしてしまうことになります。これが「囚人のジレンマ」という概念です。

④ H氏とM氏の心の動きを確認してみよう

はたして、この二人はどのように考えて決断するでしょうか。

・① まずM氏は考えます。「H氏はきっと黙秘してくれるに違いない」
・② では、自分はどうするか？
ここで「常に（自分にとって）一番有利な選択をする」と仮定します。
すると、M氏は自白を選ぶことが分かります。
その過程を確認していきましょう。
・③ 今度はH氏の立場で考えてみます。
H氏もまったく同じことを考えでしょう。
しかし、「H氏が黙秘をしてくれる」などという保障はどこにもありません。
・④ すると、お互いにどうしようと考えるのか？
　お互いに、「それならば自分も自白をしてしまおう」と考えるようになります。（もし自分だけが黙秘して、相手が自白してしまった場合には、10年実刑で保釈がつかないため）

このような思考上の戦略の収束点（行き着く先の点）のことをナッシュ均衡点（ナッシュ均衡）といいます。

⑤ 「囚人のジレンマ」から何が分かるのか

もう一度状況を確認しましょう。
• ① 二人とも黙秘ならば、　⇒二人とも1年実刑で済む
• ② 二人とも自白ならば、　⇒二人とも10年実刑、保釈あり

さて、どちらがより合理的な判断といえるでしょうか。
当然、二人とも黙秘すれば、たった1年の実刑で済むので、こちらを選ぶのが最も合理的な判断となります。
しかし、個人としてのメリットと、2人の利害を足し合わせた場合の全体最適とは異なることになります。

すなわち、2人とも「自分は黙秘、相手は自白」のパターンが意識に上ってしまうと、「自白」を選択してしまう「利害の構造」が浮かび上がります。

視野を広げれば、当然ながら、同様のケースは、企業同士や社会全体の最適解にもつながっています。

【コラム】ゲーム理論の応用

実は世の中の意思決定は、ゲーム理論の枠組みを介して考えるべき問題が大変に多いことに気付くことでしょう。
企業や国家の戦略的な意思決定のなど、ほとんどの物事に当てはまります。
たとえば、以下のようなものもそうでしょう。

・軍拡競争（囚人のジレンマと同じ、全体の利益と個別利益）
・OPECの生産枠の遵守協定
・温暖化メカニズムへの参加（なぜ積極的に参加するのか？）
・設備投資拡張ゲーム
・談合・アライアンス戦略
・金融政策と投資家のゲーム

２．ゲーム理論の世界観

（１）ゲーム理論の定式化

前述のH氏とM氏の「囚人のジレンマ」で見たように、ゲーム理論とは、『意思決定の過程を定式化して理論化したもの』です。
具体的には、以下のように定式化をしていきます。

・利得行列（プレーヤの利害関係の定式化）
・プレーヤの行動様式のルール化
・均衡点という概念の導入

（２）利得行列

Ｍ氏とＨ氏にとって、「3年+執行猶予+保釈」「1年+実刑+保釈なし」などの将来の状況が「自分にとってどのくらい嫌なものか」を数値化します。

例えば一番いやな順に並べて点数化をしてみます。
括弧内は相手（H氏）にとっての点数とします。

• M氏黙秘･H氏自白＝＞10年実刑、保釈なし　　　　⇒　0点(3点)
• 二人とも自白＝＞10年実刑、保釈あり　　　　　　　⇒　1点(1点)
• 二人とも黙秘＝＞1年実刑、保釈なし　　　　　　　 ⇒　2点(2点)
• M氏自白･ H氏黙秘＝＞3年実刑、保釈･執行猶予あり　⇒　3点(0点)

再起を図るためにも、なるべく早くシャバに戻りたいとお互いに思います。
そのため、なるべく自分が実を取りたいと考えるものとします。

ここで、各プレーヤの行動様式をルール化します。

・「プレーヤーは、選択できるオプションが複数あれば、（相手のことは考えないで）常に自分にとって有利な選択肢（利得の大きい）を選ぶ」
・「プレーヤー同士は情報を共有できない（相談して判断できない）」

さらに、ゲームにおけるナッシュ均衡点の定義をします。

• 均衡点とは、利得行列の上で次に移動する先がない点。
• 「現実的な将来シナリオとしての帰結（H氏とM氏の例では、結局二人とも自白してしまうという結論）」
• 一般化された利得行列上での収束の状況は、以下の２つ。
　①辿り着く先はひとつとは限らない。
　②均衡点が存在しないケースもある。

【コラム】ゲーム理論のエッセンスをどう生かすか？

実際の適用を考える際には、現実との乖離にこそ意味がある場合があります。すなわち、現実に起きている事実から逆算して推定することにも価値があります。

もしゲーム理論で推定した結論とは違う結論が見られた場合には、
　• 利得行列が違うのかもしれない。
　• 必ずしも自分のことだけを考えて行動するわけではない。
　• そもそも人間は間違えることもある。

もし囚人のジレンマの中で、H氏が黙秘を選んだとしたら・・・
• 「3年+保釈+執行猶予」より「1年実刑+保釈なし」の方がいいと考えた可能性もある。
• M氏の利得行列の認識が違う（H氏を信頼している）。
• そもそも罪を犯した認識を持っていない。

（３）理論構成

ここまでは、まずは例を用いてイメージで説明をしてきました。
ここからは、ゲーム理論の理論的な枠組みを説明していきます。
ゲーム理論（正確には戦略型ゲーム理論）の基本構成セットは、以下の3つの概念からなります。
囚人のジレンマの例を思い出しながら、改めて眺めてください。
(1) プレーヤー集合:Ｎ
　•囚人のジレンマでは、H氏、M氏
(2) 戦略集合：S = S1×S2 （プレーヤーの取得る選択肢）
　• 自白、黙秘
(3) 利得関数：F1（ S1 ，S2 ）
　• 自分と相手の戦略が決まった時の自分のメリットデメリット

（４）数式表現

3つの要素を並べて「ひとつの戦略的ゲーム」としてＧを以下に示します。

G＝｛Ｎ，Ｓ， Fi（ S1 ，S2） i=1,2｝

• Ｎ＝｛Ｈ、Ｍ｝プレーヤー集合
• Ｓ＝S1×S2 =｛（自白,自白）（自白,黙秘）（黙秘,自白）（自白,自白）｝
戦略集合
• Fi（ｓ1,ｓ2）利得関数
F1（自白, 黙秘）＝ 3点（3年+執行猶予+保釈）

（５）定式化の価値

ここまでのストーリーは説明のための例示であり、
　１）プレーヤーが2人しかいない
　２）取りうる選択肢が2つしかない
などと現実を簡略化してモデル化しました。

実社会の利害構造は、より複雑です。
そのために囚人のジレンマのモデルの概念を拡張する必要があります。
具体的には、

　① 情報が不確実なケース
　　自白すれば、本当に執行猶予がつくのかなど
　② 相手の出方を伺ってから、自分が意思決定をするケース
　　将棋やチェス、企業間競争など
　③ 繰り返しゲームを行い、前回の裏切りが次回のマイナスとなるケース
④ お互いの情報が完全に遮断されないようなケース

（６）基本概念の拡張

まずは基礎的な意味での概念の拡張をします。
・戦略の選択肢が離散から連続へ
　例えば「値決めの意思決定ゲーム」
・プレーヤーがN人のケース
　囚人のジレンマではＨ氏とM氏の二人だけでしたが、現実には、相互に影響を及ぼしあう利害関係者が複数います。
・純粋から混合へ

３．DRAM生産能力拡大の意思決定をゲーム理論で読み解く

1990年代にDRAM製造において、日本メーカ、韓国メーカ間で熾烈な設備拡張競争が行われました。説明の便宜上、東芝とサムスンという二つの企業だけの競争である仮定して説明します。
設備増強後のシナリオについて、以下の予測が大方のコンセンサスになっているものとします。

※DRAMとは、『コンピュータなどに使用される半導体メモリによるRAMの1種で、チップ中に形成された小さなキャパシタに電荷を貯めることで情報を保持する記憶素子である。放置すると電荷が放電し情報が喪われるため、常にリフレッシュ（記憶保持動作）を必要とする。やはりRAMの1種であるSRAMがリフレッシュ不要であるのに比べ、リフレッシュのために常に電力を消費することが欠点だが、SRAMに対して大容量を安価に提供できるという利点から、コンピュータの主記憶装置やデジタルテレビやデジタルカメラなど多くの情報機器において、大規模な作業用記憶として用いられている』（出典：ウィキペディアより引用）

（１）前提情報

両方のメーカが設備増強投資をしないとすると、
• DRAM価格は高止まりで、双方とも1000億円の利益が出る。
片方だけが設備増強（仮に3倍程度）をすると、
• 設備増強した方は
　1)市況悪化で一個あたりの利幅が1/2程度になるかもしれないが
　2) 売上3倍(市況の悪化を容認して売り切る行動を取ると仮定)になり1500億の利益となる。
• 現状維持の方は、
　1)市況悪化の影響のみで利幅は1/2になり、販売量変わらないので500億円の利益になる。
両方とも設備増強した場合には、
　1)大幅供給過剰で利幅1/5まで落ちるが、
　2)販売量が3倍になり双方とも利益が600億になる。

（２）均衡点はどこにあるか

東芝の立場で収束を議論します。
・もしサムスンは設備拡張しないとするならば、自社が設備を拡張すると1.5倍の利益になる。だから、設備増強はすべき。
・しかし、サムスンも同様にこちらが設備増強すると思うだろう。
　だから、もしサムスンが設備増強をした場合には、サムスンの利益は600億、設備増強しなければ500億だから、サムスンは設備増強するだろう。
・もしサムスンが設備増強するならば、自社は設備増強しないと利益は500億になってしまう。それなら600億円の利益が見込める設備増強の方がいい。

以上の思考連鎖から、「ナッシュ均衡点」は、両社とも設備増強に落ち着くこととなる。

（３）離散から連続モデルへ

① 囚人のジレンマとの対比
囚人のジレンマの例では取り得る選択肢は「自白/黙秘」しかありませんでした。しかし、設備拡張ゲームでは、現実の選択肢は、拡張するかしないかではなくて、どのくらい拡張するか、ということが現実ビジネスでの意思決定項目になります。

②戦略集合
選択肢の集まりを表す戦略集合は「どれだけの生産能力を保持するか（建設する生産能力）」という連続値となります。

（３）背景の整理

① プレーヤーはサムスンと東芝
② 半導体、生産コストは一個あたり10円とする。
③ 市場での価格（＝Ｐ）は、需給の逼迫具合で決まる。
　仮にここでは、Ｐ＝100-Qt－Ｑs（但し結果がゼロ以下ならゼロ円とする。経済学でいう需要曲線の逆関数）
　但し Qtは東芝の製造能力（意思決定変数）同様に、Ｑsはサムスンの製造能力とする。（単位万個）
　能力分は全部作り、かつ作った分は全部売り切るという前提とする。
• （貯蔵が利かない。また安ければ総需要が大幅に伸びるとの前提、需要が旺盛で需給がややタイトなイメージ）。
④ （例えば東芝の）利得関数は、
（市場価格－製造コスト）×（自分の販売数量）
　　＝[（100-Qt－Ｑs ） -10）]Qt
⑤サムスンの利得関数は（市場価格は双方同じものになるから）同様に
[（100-Qt－Ｑs ） -10）] Qs

ここで、ナッシュ均衡を求めてみます。
東芝の立場で考えてみます。サムスンの製造能力をQsと想定。この下で「自分にとっての利益を最大にする生産能力はどのくらいか」を考えます。
具体的には、

①（100-Qt－Ｑs -10）Qtを最大にするQtは何か？という問いになる。
例えば、沢山つくって設けようとしても、自分と相手で合計90万個作ってしまうと、市場価格が10円になってしまい、儲けはゼロ。
例えば、生産量を絞って、利幅を確保しようと考えても、1個しか作らないなら、まったく儲からない。
最適なポイントがその間のどこかにはあるはず。

②答えは、（45－0.5Ｑs）
これが東芝のとりあえず想定する生産能力となります。
これをQt＝45－0.5Ｑsと書きます。

（４）反応関数の交点

相手の戦略を仮定（決めうち）した時の、自社にとって最適な戦略が定まります（一つでなくてもいい）。この関係を「反応関数」といいます。
今度は、サムスンが東芝の生産能力をQtと仮定して、同じことをします。

（５）クールノーナッシュ均衡

この均衡点は、「クールノー均衡」と呼ばれる概念です。
より詳しくいうと、以下の条件を満たすような構造のゲームでのナッシュ均衡点のことを「クールノー（ナッシュ）均衡」といいます。

①二つの企業が、同質な財を生産し市場に供給する。
②各企業は生産量を意思決定項目として、利益最大の意思決定をする。
③価格は市場に委ねる。一定の需要関数が仮定される。
　• プレーヤー集合は、2つの企業
　• 戦略集合は、生産量
　• 利得関数は、生産量×（販売価格－生産コスト）

（６）ベルトランナッシュ均衡

ここで、クールノー均衡と対比して理解したいベルトラン均衡を説明します。
クールノーのモデルでは、東芝とサムスンは「価格」は市場で決まるものを受け入れ、自社は、どこまで製造能力を拡大するか決めるというスタンスで意思決定をしました。

イメージとしては、「次の工場をどれだけの大きさにするか？」の問題を解きました。工場の製造能力を決定をして工場を作った後は、生産調整はしたくなく、100%稼動させるというシナリオになります。

しかし、時代が流れ、以下の変化が起きました。
・工場の投資の元は大方取れていてＤＲＡＭ需要に対して十分な供給能力が既にあり、
・そのタイプのＤＲＡＭは製品としても陳腐しつつあり、値段を下げれば、需要が大幅に伸びるという状況でない。

このため、クールノーのモデルと異なる状況が生じてくることになります。

（半導体は汎用品であるため）メーカによる物の違いがなく、かつ需要がタイトではないため、消費者は少しでも安いメーカのものだけを買うことになります。

クールノーのモデルでは供給制約があるため、市場全体の需給のバランスで価格が決定され、2社のシェアは生産能力に従って決定していました。
これは、作ったものは全部売り切るという前提に立ったものです。
この時の意思決定項目は、
・「どれだけ生産能力を拡張するか」でなく、
・「価格設定をどうするか」となります。

この時は、製造コスト（特に変動費）が非常に重要なファクターになります。

続きは、次の記事で紹介します。

【おすすめ記事】

【おすすめ書籍】

この記事が気に入ったらサポートをしてみませんか？