【超入門】ビジネスやマーケティングに使えるゲーム理論とは？

株式会社デジタリフト

2021年9月17日 09:54

突然ですがゲームは好きですか？
僕はモンハンがお気に入りです。

・・・はい。

タイトル通り「ゲーム理論」についてお話していくのですが
もちろん「テレビゲーム」の話ではありません。

「なんだよ～Nintendo SwitchとかPS5の話じゃないのかよ。」

と思った方。すみません。僕はその手のゲームについて全く詳しくないのです。ただ、唯一モンハンは好きなので、モンハン好きな同志はコメント欄でアピールしてください。

雑談してないで本題に入りましょう。

今回はビジネスの世界とも関わりの深い、ゲーム理論の紹介です！
「囚人のジレンマ」「ナッシュ均衡」「パレート最適」の話をしますね。

ゲーム理論は数学的なモデルを使用するため
ガチガチに勉強すると、ゴリゴリに数式が出てくるわけですが、
簡単なモデルに限ると数式がなくてもかなり正確に理解できます。

このnoteではそんなモデルの1つ「囚人のジレンマ」を紹介し、
「ナッシュ均衡」と「パレート最適」について理解出来たらゴールです。

ゲーム理論とは

簡単に書くと

一定のルールが存在するような状況を想定し
そこで各プレーヤー同志がどう行動するか？
そして、それがどんな結果につながるのか？

を考えるモデルです。

と、言われてもよく分からないと思いますので
以下で「囚人のジレンマ」モデルを見ていきましょう。

囚人のジレンマ

唐突ですが・・・

今AさんとBさんの2人が共犯で、ある軽犯罪で捕まっているとします。
ところがこの2人はさらに重罪を犯しているのでは？と疑われています。

そこで警察がこう言います。

「このまま2人とも重い方の罪を黙っていれば、
軽犯罪だけの罪に問われて、懲役2年ってとこだろう」

（※2人とも『黙秘』⇒2人とも懲役2年）

「但し、もし正直に告白してくれたら、その罪を見逃してやる！
片方だけ告白したら、黙ってたほうに全てを罪をなすりつけよう。
自白した方は懲役0年、黙っていた方は懲役10年だ。」

（※片方が『自白』して片方が『黙秘』⇒『自白』した方は懲役0年、『黙秘』した方が懲役10年）

「もし2人とも自白したら、お互い懲役5年だ」

（※2人とも『自白』⇒お互い懲役5年）

「さぁ、ここまでを踏まえて、どうするか考えてこい！」

で、2人は別々の取調室に連れて行かれます。
『別々』というところがミソで、つまり2人は相談は出来ない状況です

この状況を表にしてみましょう。
数値は懲役の年数です。

懲役は嬉しいことではないので「マイナス」をつけています。
また、「（）」の左がA、右がBの数値を表します。
このような表のことを『利得表』といいます。

表の見方は単純です。
例えば左下の（0,-10）はAが自白、Bが黙秘したときの状況ですね。
Aだけが自白しているので、全ての罪はBになすりつけられ、
Aは懲役0年、Bが懲役10年となっています。

右下はAも自白、Bも自白しているため
両者とも懲役5年ずつになっていることを（-5,-5）と表しています。

さて、ここから2人の行動を考えていきましょう。

まずAの気持ちになって行動を考える

まずは自分が「A」だと思ってください。
そして「Bがどのような行動をするか」を仮定しながら
自分が取るべき行動を決めていきます。

①Bが黙秘したと仮定

Bが黙秘した場合のみを考えるので、
Bの自白の列は見なくてOKです。

このときAはどちらを選ぶか？
懲役2年と懲役0年では後者の方が良いので、
当然自白を選ぶでしょう。
（※Aは括弧内の左の数値）

②Bが自白したと仮定

Bが自白した場合だけを考えるので、黙秘の列は無視。
このときAは、懲役10年と懲役5年を比べるので、
この場合も自白を選ぶでしょう。

つまり、Bがどちらを選択したとしても
Aとしては『自白』を選ぶべきということになります。

次にBの気持ちになって行動を考える

さて、今度はあなたは「B」です。
「Aの行動を仮定」した上で自分の行動を考えていきます。

①Aが黙秘したと仮定

Aが黙秘した場合なので、自白の行は無視。
Bは（）内の右側なので、「-2」と「0」を比べれば当然「0」が良いですね。よって、自白を選ぶでしょう。

②Aが自白したと仮定

Aの自白を仮定しているので、黙秘の行はスルー。
このときBは「-10」と「-5」を比べて、
「-5」の方がマシなので自白を選択するでしょう。

つまり、Aの行動がどちらであっても、
Bも「自白」を選択するべきになります。

さて、これまで利得表において『赤丸』を付けた箇所を『最適反応』といいます。

‡最適反応‡
相手のプレーヤーがある戦略（行動）をとったという条件の基で、
自らの利得を最大化する戦略（行動）

『赤丸』を付けた箇所は全部『最適反応』になっていますね。
『最適反応』をまとめると以下の利得表になります。

ここで、背景が黄色の箇所（AとB両方の最適反応になっている状態）を『ナッシュ均衡』と呼びます。

‡ナッシュ均衡‡
各プレーヤーの最適反応が組み合わさっている状態
（これは、どのプレーヤーも自分だけでは、それ以上利得が大きく出来ない状況です）

また、『ナッシュ均衡』のことを「ゲームの解」とも言います。
なぜ「解」なのかというと、「2人ともしっかり考えた上で最終的に行き着く先」だからです。

最適反応を全てのケースで考え、相手の最適反応も考えてみると
行き着く場所（つまりゲームのゴール）が『ナッシュ均衡』なのです。
だから「ゲームの解」と呼ばれるのですね。

ジレンマの意味

ここまで見ると、「ジレンマ」というのがなんとなく分かりますよね。
数字だけで判断すれば、どう考えても「黙秘、黙秘」（2人とも懲役2年）が一番良さそうな気がします。

ただ、今回の例ように「相談出来ない状況」で「同時に1回だけ行動する」場合、どちらも損をするような状態に陥ってしまいます。

このモデルのことを『囚人のジレンマ』というわけです。

ここで次の言葉も紹介していきます。

‡パレート改善‡
どのプレーヤーからも文句が出ず、少なくとも1人のプレーヤーが得をする状態の変化
※文句が出ない：利得が下がらない⇒つまり「≧」
※得をする：利得が上がる⇒つまり「＞」

例えば、右下から左上への移動は、パレート改善になります。（青の矢印）

この場合は
A：-5 → -2
B：-5 → -2
となり、どちらも得をする状況への変化ですもんね。
（※括弧内左はA、右はB）

ここでQuestion
他にパレート改善になる状態変化はあるでしょうか？

・・・

はい。
実はもうないです。

例えば、右下から左下は
Aは「-5→0」なので嬉しい（得をする）ですが、
Bは「-5→-10」なので文句を言いますね（損をします）

他の状態変化も同様にパレート改善にはなりません。
そして、パレート改善の余地がない状態にも名前がついています。

‡パレート最適‡
パレート改善の余地がない状態

今回の例だと下記の「緑色の背景」の箇所になります。

右下（自白、自白）だけが「パレート改善」できるのですから、それ以外の場所はパレート改善出来ない = パレート最適になります。
※先程説明したように、右下(-5,-5)から左上(-2,-2)への状態移動がパレート改善になる）

よく巷のネット記事とかですと「黙秘、黙秘」の場所（左上）だけパレート最適という、と書いてあるものもありますが、間違いです。

定義を見れば明らかですが、「パレート改善の余地がない」のであれば、
その状態は『パレート最適』になります。

なので、上記の3箇所がパレート最適の状態です。

「いや、でも、どっちも懲役2年の状態が一番平和というか、、、公平じゃん？」

と思うかもしれません。
しかし、パレート最適には、損得とか公平さとかは全く考慮されません。
あくまでも「パレート改善出来ない状態」という定義がすべてです。

ビジネスの応用は？

この理論の応用範囲は広いです。
特に寡占マーケットなどではこの囚人のジレンマのモデルで語られることが多いです。
※寡占：一社独占とまではいかないけど、少数企業が市場全体の大半を占める、という状況

例えば、携帯業界やコンビニ業界が典型的な寡占市場ですね。

◯例：携帯業界の値下げ競争

話を簡単にするために、仮に市場に携帯事業者が2つしかいないと仮定します。ここではソフトバンクとKDDIにしてみましょう。（あくまで仮です）

今、互いに値下げをしなければ、儲かることが分かっており、両者は5000億の利益があるとしましょう。

仮に、ソフトバンクが値下げし、KDDIが価格を保った場合、
KDDIユーザーが、値下げをしたソフトバンクに流れ
ソフトバンクとKDDIの利益がそれぞれ、7500億と1000億になるとします。

逆の場合（KDDIが値下げをし、ソフトバンクが価格を保った場合）も同様の動きをするとします。

一方、両者がともに値下げをした場合、ユーザー比率は変わらず
利益が3500億になるとしましょう。（値下げをしているので利益は落ちる）

ここまでの話を表にまとめると以下になります。

さて、一番儲かるのはどういう状態でしょう？
もちろん、『自分だけが値下げして、相手が現状維持』のときですね。

ところが、ゲーム理論でいうと、
両者とも相手の戦略をしっかり考察し最適反応を検討すると
囚人の例と同じように両者とも「値下げをする」という状態が最適反応の組み合わせになってしまいます。（下図の背景が黄色の状況）

そこがナッシュ均衡（=ゲームの解）になるんですね。

とはいえ、実際は理論と現実では違いはあります。
（最近では政府の働きかけもありどこも値下げをしている感じもありますが。）

理由の1つは、上記の判断が「1回だけ行われる」わけではないことです。
つまり相手の行動を見たのちに、こちらを動きを考えるなど継続的なリアクションを取ることが可能です。

もう1つは、状況によっては、プレーヤー間で情報共有ができることですね。
相手プレーヤーの意思や行動をある程度分かった上で行動できることもある、ということ。

この例としては2006年にソフトバンクがアナウンスした内容が有名だったりします。
https://www.itmedia.co.jp/bizmobile/articles/0610/23/news079.html

要するに「ドコモ、auが値下げをした場合は、24時間以内にソフトバンクもさらに値下げするよ」とけん制しています。

2006年のソフトバンクは資金的にはドコモやauと比較すると弱いので、
もし、ドコモやauが挑戦に乗ってきて「1-2年くらい、こっちは利益なしで対抗してやるぜ」みたいな戦略できたらソフトバンクはなくなってたかもしれませんね。

ただこれをやるのはドコモやauにとってもリスクが大きいし、
一度下げた価格をまた上げるのも難しいので、そういうところも見越したうえでの作戦だったのでしょう。

ゲーム理論的には、「相手が価格下げるなら、こっちも下げるよ」と
ある意味では「情報提供」していると考えられるので、ナッシュ均衡に陥る状況を打破しようとしているとも考えられます。

つまり、「情報共有」がないゆえに陥ってしまうナッシュ均衡を回避するため、相手に一定の情報シグナルを送っているということだったのかもしれません。

これはなかなか面白いですよね。

おまけ

最後に囚人のジレンマ以外のモデルも少し紹介します。

例１：男女のデート

男はドライブに行きたい
女はショッピングに行きたい
としましょう

自分の好きな方に行ける場合は「10」
いけない場合は「5」にします。

そもそも男女で行く先が異なる場合は
デートが成立しないので両方とも「0」です。

表にするとこんな感じ。

例えば左上なら男女ともドライブですね。
男はドライブにいきたいので「10」
女性はショッピングに行きたいのでドライブだと「5」になります。

さて、このケースのナッシュ均衡とパレート最適はどの状態でしょう？

囚人のジレンマのモデルのときの用に最適反応を考えると下図のようになります。

というわけで最適反応が組み合わさっている
左上と右下（背景黄色）がナッシュ均衡（=ゲームの解）になります。

このようにナッシュ均衡は複数存在することもあります。

では、パレート最適の状態はどこでしょう。
パレート最適とは「パレート改善の余地がない状況」でしたね。

少し考えたら分かると思いますが、
このケースではパレート最適とナッシュ均衡が一致します。

例2：じゃんけん

次の例はみなさんよくご存知のじゃんけんです。
AくんとBくんがじゃんけんするケースを考えてください。

もういきなり利得表を見せましょう。

勝った方が1、負けた方が-1で、あいこなら0というシンプルな利得表です。

例えば、
緑の状況は「Aがチョキ、Bがグー」なのでAが負けでBが勝ち
⇒A：-1、B：1

赤の状況は「Aがグー、Bがチョキ」なのでAが勝ちでBが負け
⇒A：1、B：-1

青の状況は「Aがパー、Bがパー」なのであいこ
⇒A：0、B：0

このケースの最適反応を考えましょう。

はい。こうなります。

最適反応の組み合わせはありませんね。
なのでこの場合はナッシュ均衡はありません。

直感的にもじゃんけんでナッシュ均衡のような
「考えた末にプレーヤーの選択が行き着く先」
というものはなさそうですよね。

ちなみに、じゃんけんはどの状態もパレート改善の余地がありません。
つまり、すべての状態が『パレート最適』です。
（再掲：パレート最適とはパレート改善の余地がない状態）

じゃんけんという身近なものを
改めて理論的に考えるのも面白いですよね！

今回は以上です。
Bye, Bye.

広告運用に関して詳しくお話を聞きたいという企業様がいらっしゃいましたら、こちらからお問い合わせをお願い致します。

私たちの会社で働く事に少しでも興味を持っていただけたら、ぜひ応募フォームよりご連絡ください。

この記事が気に入ったらサポートをしてみませんか？