見出し画像

じゃんけんのGTO

GTO(Game Theory Optimal)、ゲーム理論最適化についてじゃんけんを例にして書こうと思います。

まず、いちおうじゃんけんのルールの確認から。

プレイヤーが出す手は3種類。グーチョキパーです。
そしてこれらは、グー>チョキ>パー>グー>チョキ>・・・と三つ巴の関係です。

じゃんけんのGTOはどんな感じでしょう?
直感的にそれぞれの手を1/3づつで出せば良さそうですね。
実際これが答えなのですが、一応計算して解いて見ましょう。

計算を簡単にするために自分の手を自由に変えられ、対戦相手はそれぞれ1/3で出すという固定戦略を用いるとします。
自分はグーチョキパーをそれぞれx、y、zの率で出すと、すると以下の表のようになって、それぞれの掛け算でその勝ち負け判定が表せます。

画像1

ここで方程式を解いてみましょう。まず確率の定義より x+y+z=1 です。
そして勝ちの○に関する係数を足してみて、(x/3)+(y/3)+(z/3)=f(x) とします。この2式を解いてみましょう。

画像2

こんな感じで解いてみると、x, y, z に関係なく、勝率は1/3と出ましたね。
GTOにおいて大切なのは、まさにこの、対戦相手の戦略とは無関係という点です。搾取されることのない戦略、これが均衡解です。

では対戦相手の戦略を変えてみましょう。
ここでは1/2でグー、1/4でチョキ、1/4でパーだとしてみます。
この時、私たちは戦略をどう変化させて相手に対応しますか?

試しに、なんとなくで対応してちょっとパー多めでやってみましょう。
1/4でグー、1/4でチョキ、1/2でパーで再計算。
((当たり前ですが)ちなみにこのとき、自分の戦略をグーチョキパー1/3と出すと、勝率は1/3で変わりません。)

画像3

なんちゃってで対応してみましたが、一応、均衡解での勝率1/3よりは勝ててます。
でも、これでは甘い甘い。まだまだ勝率は上げられます。

最大限のイクスプロイットを計算で求めてみましょう。

先程と同様に方程式を立てます。まず確率の定義より x+y+z=1 。
そして勝ちの○に関する係数を足してみて、
(x/4)+(y/4)+(z/2)=(x+y+2z)/4 =f(x)=f(y) とします。
これらを用いて式を変形してやると、

画像4

f(x) (=f(y)) = (2-x-y)/3 と整理できました。
この式は最初の例とは異なり固定値ではありません。こちらの出す手の率が変わると(=xとyが変われば)、その勝率が変化することを意味していますね。

ではここで、f(x) を最大化させる x, y, z の組み合わせを計算させて考えてみましょう。そんなに難しい計算ではありません。

f(x) と f(y) はそれぞれの文字で微分してあげて f’(x) と f’(y) はどちらも -1/3 となり負の固定値を取りますから、f(x) も f(y) も一次関数で単調減少関数であることがわかります。
いま f(x) を最大化させたいので、x+y+z=1 の条件下では x, y が共に0でなければ困ります。(x, y, z は負にはならない)
と考えると、最大化には z=1 が条件となり、f(x) が最大化する組み合わせが求まります。

画像5

以上のように z=1 、つまりパーを常に出し続けるのがこちらの勝率を最大化させる方法です。(イクスプロイット)
(でもずっとパーばかり出していると、相手に気づかれてチョキを出され負け越す可能性がもちろんあります。イクスプロイットはそういうものだし、その先にGTOがありますが一応特記。)

画像6

勝率は1/2とかなり増えましたね。

じゃんけんGTOのまとめ
均衡解では勝率1/3で0.333で不変値。相手に関係ない。
グーが多い相手になんちゃってで対応すると勝率3/8で0.375。(微増)
相手はグーが多いからパーばっかり常に出してイクスプロイットしよう!だと勝率1/2で0.5。(最大値)


最後にポーカーでの応用?というか今回の例から考えれば多分そういうことだよねってこと。(あってるかわかりません。自信は五分五分)

1. 均衡解をソルバーを用いて求める。
2. 相手の戦略を実際のものから仮定して、それでノードロック、再計算。
3. 再計算ではノードロックした条件下でのGTOが計算されているから、1の均衡解と比べてどうなってるか確認。
4. 変化したそれを極端にしてやればイクスプロイット戦略。(当然、自分が逆エクスプロイットされる余地を作ります。要注意)


以上間違っていれば教えてください。訂正します。


今後のノート作成の励みになりますので、サポート宜しくお願いします!