(自分用)第1章 戦略形ゲームと戦略の支配

専攻分野(ゲーム理論)で学んだことを要約しておきます。ある程度はわかりやすく書いたつもりですが、自分用と書いてある通り、文字が多くわかりづらいかもしれないです。読みたければどうぞ。

1.戦略形ゲームと戦略の支配

非協力ゲームの代表ともいえる戦略形ゲーム。
そんな戦略形ゲームはプレイヤー、戦略、利得の集合によって表現される。
 プレイヤーとは言うまでもなく、行動を決定する主体のことである。ここでのプレイヤーは1人の個人である必要はなく、団体をまとめて1つのプレイヤーと呼ぶこともある。
 戦略とはプレイヤーがとることのできる行動の計画のことである。行動と戦略は似て非なるもので、道の分岐点で「右に行く」というのは行動である一方、「相手が右に行くなら私は左に行く」というのが戦略である。
 利得とは、各プレイヤーが戦略を選択した結果得られる利益のことである。自分の利得は自分の戦略だけでなく、相手のプレイヤーの戦略にも依存している。
 ここで改めて戦略形ゲームの定義を記述しておく。

戦略形ゲームの要素(Nがプレイヤー、Sが戦略、fが利得の集合)
⇒$${[N,{S(i)},{f(i)}(i∈N)]}$$

2.支配戦略と支配戦略均衡

 よりよい戦略を選択するために、2つの戦略を比較する必要がある。そこで最もオーソドックスな(と考える)戦略間の支配関係について記述する。

 戦略Aと戦略Bを比較するとき、もちろん得られる利得の大きいほうを選びたいわけだが、利得は他プレイヤーの戦略にも依存するという性質上、2つの戦略によって得られる利得の大小関係は容易に逆転する。そのため2つの戦略の比較といっても容易ではないわけである。
 しかし、仮に他プレイヤーがどんな戦略をとったとしても戦略Aで得られる利得が戦略Bで得られる利得よりも大きいとき、この2つの戦略間には支配関係があるといえる。

$$
\begin{array}{|c|c|c|} \hline
1/2 & C & D \\ \hline
A & (3,1) & (1,2) \\ \hline
B & (2,1) & (0,1) \\ \hline
\end{array}
$$

 例えば、上の表のように戦略と利得が与えられているとする。すなわちプレイヤー1は戦略A,Bから、プレイヤー2は戦略C,Dから選択し、戦略AとCが選ばれると1は3、2は1の利得を得る。(ということを(3,1)が表している)
 このとき、プレイヤー2が戦略CとDのどちらを選択してもプレイヤー1は戦略Aを選択したほうが得られる利得が大きい。すなわち、戦略Aは戦略Bを強支配するという。
 同様にプレイヤー1が戦略AとBのどちらを選択してもプレイヤー2は戦略Dを選択しない理由はない。ただし、強支配とは異なり、戦略Dをとることは戦略Cをとることよりも確実に悪くはないという状況である。(プレイヤー1が戦略Bをとった場合、プレイヤー2にとって戦略CとDの間に違いはない)
このように、戦略Dが少なくとも1つの戦略の組(プレイヤー1が戦略Aをとったとき)に対して戦略Cよりも優れており、さらにほかの戦略の組に対しても戦略Cよりも劣ってはいないとき、戦略Dは戦略Cを弱支配するという。
  また、ある戦略が他のすべての戦略を強(弱)支配するとき、その戦略を強(弱)支配戦略とよぶ。さらに、すべてのプレイヤーが支配戦略をとるとき、その戦略の組を支配戦略均衡とよぶ。
 
 
支配戦略が存在するときは相手の戦略を考察するまでもなく支配戦略を選ぶのが最適であるのだが、前述したとおり支配戦略は必ずしも存在するものではない

3.パレート最適と囚人のジレンマ

 ここではプレイヤーの利得の組の間で社会的な望ましさを比較する概念であるパレート最適性について記述する。

$$
\begin{array}{|c|c|c|} \hline
1/2 & C & D \\ \hline
A & (3,3) & (1,2) \\ \hline
B & (4,0) & (1,1) \\ \hline
\end{array}
$$

 先ほどのように例を用いて説明する。戦略A,Cの組と戦略B,Dの組について両プレイヤーにとって前者のほうが得られる利得が大きい。このとき、戦略A,Cの組は戦略B,Dの組をパレート(強)支配するという。また、戦略A,Dの組は戦略B,Dの組をパレート弱支配するという。(支配戦略の時と同様の説明になるので説明は省略)ある戦略の組が他のどの戦略の組にもパレート弱(強)支配されないとき、その戦略の組を強(弱)パレート最適という。
 パレート最適性は個人の合理的な決定の帰結ではなく、パレート最適であるという理由だけで各プレイヤーがパレート最適の戦略を選ぶことはないということに注意が必要である。

 ゲーム理論を学ぶ人であればほぼ間違いなく知っているであろう囚人のジレンマというゲームについて紹介する。
 ルール(設定)
 プレイヤー1,2は共謀して犯罪を犯した容疑者である。2人は別室で取り調べを受けており、「自白」「黙秘」の2つの戦略が与えられている。
・2人とも自白すると、双方に懲役4年。
・片方が自白すると、自白した方は懲役5年、黙秘したほうは無罪。
・2人とも黙秘すると、双方に懲役1年。(証拠不十分)

$$
\begin{array}{|c|c|c|} \hline
1/2 & 黙秘 & 自白 \\ \hline
黙秘 & (-1,-1) & (-5,0) \\ \hline
自白 & (0,-5) & (-4,-4) \\ \hline
\end{array}
$$

 ルールに基づいて利得の表を作ると上表のようになる。プレイヤー2人にとってこのゲームにおける強支配戦略は「自白」である。しかし、「黙秘」,「黙秘」の組は「自白」,「自白」の組をパレート強支配するパレート最適な組なのである。
 仮に容疑者2人が事前に話し合ってお互いに黙秘するという約束をしていても、いざ別室で取り調べを受けると自白した方が得であるという結果になる。このように支配戦略均衡とパレート最適性が乖離している時、このような協力関係は成立しない。

この記事が気に入ったらサポートをしてみませんか?