見出し画像

元ゲーム理論専攻の自分がGTOを説明してみる(Part2)

モデル分析の意味とポーカーにおける複雑化のパターン

このシリーズでは、ツールを使ったGTOの分析ではなく、モデルを使った分析でポーカーというゲームがどんなゲームなのかを解説しようと思います。
経済学では(他の学問でも)、現実を抽象化したモデルで理解しようと試みます。そして、簡易なモデルから徐々に複雑化させ、理解を深めます。

ポーカーにおいては、最も簡易なモデルが後述するAKQゲームであり、そこから複雑化させるにはいくつかの道があります。
大きな方向性は、「レンジ」と「ストリート」で、それを図解化し既存の知見やツールとマッピングしてみたのが下の図です。

キャプチャ2

図の補足ですが、レンジにあるAKQは後述するAKQの3種類のハンドを考えるゲーム、Ato5はA~5の10種類のハンドを考えるAKQの応用版のようなものです。
レンジの複雑化と複数ストリートの話は、書籍に既に記載がありますが、少し応用と解釈と加えたものをこのシリーズでは研究したいと思います。

ここに書けていない重要な要素としては、マルチウェイがあります。マルチウェイは複雑で、Pioも対応していないほどですが、基本的な考え方はこのシリーズの最後の方で説明したいかなと思います。

このシリーズのゴールとしては、「ある程度複雑なレンジ」の「マルチストリート」が説明できればよいと思っています。そこまで行くと、フロップの安くて広いCBが有効な理由が説明できる、はず。
この記事で説明したAKQゲームの結論は現実のポーカーとは少し乖離しているようにも見えるはずです。それは現実のポーカーが、複雑なレンジを持っている事とストリートが複数ある事に起因しているのだ、というのが私の仮説です。ポーカーの均衡は求めらていませんし、仮説の域は出ませんが、このシリーズの分析を通じて少しでもポーカーというゲームの真実に近づければと思います。

いくつかの用語説明(均衡とレンジ)

①均衡とは?
GTOという言葉が良く使われますが、混乱を避けるためここ以降は(ナッシュ)均衡という言葉を使います。
ナッシュ均衡とは、各プレーヤーが、互いに対して最適な戦略を取り合っているという状況です。
もっとちゃんと言うと、以下のようになりますが、ポーカーをやるうえではほとんど必要がないので、飛ばして構いません

キャプチャ1

マニアックだけど重要な論点は、ポーカーに均衡があるのか、という事です。GTOGTOとみんな言っていますが、均衡はあるのでしょうか?
例えば、より大きな数字を言った方が勝ちというゲームを考えると、いくらでも大きい数字が言えてしまうので、均衡はないですね。
では、ポーカーに均衡はあるかと言うと答えは、「ある」です。プレイヤーの数と戦略が有限のゲームであれば、均衡はあります。このあたりの議論をきちんと行ったのがナッシュ均衡のナッシュで、その業績からノーベル賞を受賞しています。

(補足)最適と均衡の違い
最適戦略や最適反応戦略というのは、プレイヤー個人の話であり、相手の戦略によって変わるものです。均衡は、プレイヤー全体(戦略の組)の話であって、自分や相手がどうこうではなく、ゲームそのものが持つものです。
相手によらない個人の選択であれば、「解」とは「最適解」ですが、お互いの戦略がお互いの利得に影響を与え合うゲームの「解」は「均衡」で考えるのが自然ではないでしょうか。
Wikipedia -解概念-
https://ja.wikipedia.org/wiki/%E8%A7%A3%E6%A6%82%E5%BF%B5

②レンジについて
ポーラライズドレンジなど良く使う言葉の説明をまとめました。
説明は色んなところにありますが、図解したのをあまり見たことないので、これも図解。

キャプチャ3

実際には、ベットレンジをポーラライズドレンジにする事を、ポーラライズする、ポラる、という使い方をします。

モデル分析の基本~AKQゲーム~

このモデルは一番簡易なモデルなので、自分がポーカーを始めた時もまずはこれを考えました。動機としては、最適なベットサイズを知りたかったからですが、その結論は直観とは異なったのでやや驚きました。それからしばらく経ちポーカー関連のサイトを見ている内に、このゲームがAKQゲームと名付けられている事を知りました。

AKQゲーム(原始ポーカー)その1

AKQゲームはもっとも単純なので、原始ポーカーと呼びたかったりします。(文字変換の際に、原子ポーカーと出たのですが、これ以上分割できないものとして、原子でもよいのかもしれない)

①前提
・リバー(ベット機会が一回)
・OOPはKのみを持ち、IPは50%でA、50%でQを持っている。
 (IPとOOPが逆でも結論は同じ。)
・ハンドの強さは、A>K>Q
 (ボードも役もなく、一枚のカードの強さで決まる。)
・スタック、ポットはP。ベットサイズは固定(ポットベットのみ)。

②結論
レンジの説明同様、図の方が分かりやすいので、図で示します。

キャプチャ4

③結論に至る考え方と解釈
厳密な証明というよりは、考え方を説明します。
・AQ側の戦略
Aは100%ベットします。(直観的にそんな感じしますよね。Aでのベット頻度をpと置いて利得を求めたら、p=1になりますが、割愛します)
問題はQで、要は最適なブラフ頻度はいくつかという事です。
混合戦略(ベットとチェックを混合など、複数の戦略を混ぜる事)の均衡を求める場合、相手の各戦略が無差別(同じEV)になるような頻度にするというちょっとしたコツがあり簡単に求められます。
(無差別の話は後述の補足に詳細を書いています。)
具体的には、コールしてもフォールドしても同じEVにすればよく、ポットベットに対する必要勝率は33%ですので、Qは50%の頻度でブラフをします。
(Aが100%、Qが50%なので、Kから見ると勝率が33%になります。)

・K側の戦略
K側は最初にベットできますが、ベットする意味はありません。(自分より強いAにコールされて、自分より弱いQは降りるため)
この理屈はAが10%、Qが90%(K側の勝率が90%)でも同じですね。
勝率90%でもベットしないというのは不思議ですが、ベットするかどうかは、勝率だけでなくレンジで決まるというのが、分かります。

本丸であるベットされた時のコール頻度を考えます。
AQ側の場合と同じように、無差別にする事を考えます。
Aは必ずベットするので、Q側のチェックとブラフを無差別にしますが、
ポットベットのブラフをした際に必要な降ろす頻度は50%ですので、K側のコール頻度は50%です。
※この頻度の事をMDFと呼ぶ事は有名かもしれません。が、実際のディフェンス頻度はMDFではありません。今回はQ側の勝率が0%という特殊な状況なので、実際のディフェンス頻度とMDFが一致しています。

(補足)無差別にするとは?
戦略SとTが均衡では50%ずつの場合、それぞれの利得(の期待値)は同じになります。仮にSの方が期待値が高いなら、100%Sを実行する事で、均衡時よりも利得を高める事ができてしまいます。ので、複数の戦略を混合させている時には、それぞれのEVが等しくなります。
Pioやスノーウィーなどで、ベットとチェックどっちでもEV同じだなーと思った事ありませんか?

もっと直観的にも説明できます。AQ側を考えます。
Qをどれくらいブラフできるか考えた時、10%だとバリュー過多でK側は楽々フォールドできます。20%でもまだまだバリュー過多でフォールド寄りですね。そう考えた時、どこまでブラフを増やせるかというと、コールかフォールドかを迷うレベルまでブラフできそうですよね。迷うというのは、要はコールとフォールドのEVが同じになるという事です。

④学べる事
・マージナルなハンドはベットしない。IPのナッツは必ずベットをする。
・ブラフもブラフキャッチも適切な頻度で実施する。
・その頻度は、(エクスプロイトでなく)ナッシュ均衡上は、相手のプレイが無差別になるようにする。
二つ目は当たり前と言えば、当たり前と思います。が、ゲーム理論ではちゃんと数学的にその頻度が求められるというのがよいですね。ブラフやブラフキャッチは心理的な要素や対人読みの要素も実戦上は多分にあるのですが、理論上の解もちゃんと存在するのです。
三つ目は、このあとも出てくる基本的な考え方で、超重要項目です。

ここまでも、結構長くなりましたが、本当に重要なのは、次のAKQゲームの応用版です。このゲームがどんなゲームかが、少しずつ分かってきます。

AKQゲーム(原始ポーカー)その2

①前提
その1と下記のみ変えます。
・スタックサイズをSとして、ベットサイズをB(可変)とする。
(AQ側のスタックをS1,K側をS2としても、結局少ない方のスタックにしか意味がないので、双方のスタックをSとしても構いません。)

②結論
ベットサイズを可変にした場合の結論は、オールインです。
オールインする事が均衡とは、最初に計算した時は計算ミスかと思いました。

キャプチャ4

式が少し複雑ですが、例としてS=Pの場合(その1の場合)を考えると、上記の式のSにPを代入して、
Kのコール頻度は、P/(P+P)=1/2、
Qのベット頻度も、P/(P+P)=1/2、となり、さきほどの例と整合しています。

式の算出方法と解釈は③で説明します。

③結論に至る考え方と解釈
以下の二段階に分けて考えます。
1.ベットサイズBの時の均衡を求める
2.AQ側のEVが最大となるBを求める

1.ベットサイズがBの時の均衡を求める
その1と全く同様で、
AQ側は、全体でK側のコールに必要な勝率になるように、Qでベット、
K側はMDFでコール、です。

計算すると、
Kは、P/(P+B)でコールする。
Aは、100%ベット、Qは、B/(P+B)でベットするです。
※実戦的には、ブラフの割合がB/(P+2B)と覚えた方が使いやすいです。

この解釈も非常に重要で、
ベットサイズが大きい程、Kはコール頻度が下がり、Qのベット頻度(ブラフ率)が上がる事が分かります。
サイズが大きい程コールしにくいのはなんとなく分かりそうですが、後者のサイズが大きい程ブラフを混ぜられるというのも分かりますでしょうか?
相手がコールしにくくなるのだから、それだけブラフもたくさんできる、と考えると理解しやすいかと思います。

2.AQ側のEVが最大となるBを求める
AQ側のEVは、Qを持っている時のEVが0なので、Aの時だけ考えればよいです。(ブラフとチェックが無差別で、チェックのEVが0なのでブラフのEVも同じく0、よってQのEVは0です。)

Aを持っている時のEVを計算すると、(P^2+2PB)/(P+B)
Aを持っているのは50%なので、レンジ全体のEVは、
1/2*(P^2+2PB)/(P+B)です。

ここで、この式はBについて増加関数なので、最大となるのは、
B=Sの時になります。要はオールイン!がAQ側の均衡戦略です。

もう一つ重要な事があって、このEVはSが大きくなるとPに収束ポットがすべてAQ側のものになる)します。
スタックが無限の時は、勝率は50:50なのに、AQ側のみにEVがあり、K側は0なのです。

K側のコール頻度の式に戻ると、P/(P+S)ですが、これはSが大きくなると0に収束する。つまり、ベットサイズが大きくなると何もコールできなくなる=
フォールド率が100%に近づく=EVが0に近づくという事です。

④学べる事
・ポーラライズされている時には、大きくベットすべき。
・スタックサイズが大きいほど、ポーラライズ側のEVが増える。
このゲームはポラって大きく打つゲームなのだ、と常々思っていますが、それはこの結果から来ています。完全にポラっていれば、大きく打つどころかオールインが均衡です。そして、スタックが増えるとK側のEVは0に収束します。勝率は50%なのに!
マージナルなハンドを持っていて、ベットされるとすごく困るなあ、と思いますがその感覚は正しいといえますね。

面白いのは、このポラって大きく打つゲームだという話と、最近流行っている1/3サイズのレンジCBの話は矛盾しているという事です。実際には矛盾していませんが、その話までたどり着くにはまだまだ長い道のりが必要です。
Partいくつまで続くのか分かりませんが、それなりに読まれるようであれば、続けていきたいと思います。

次回予告

次回は、AKQゲームのマルチストリート版の話していきます。
今回の結論は、AQ側はオールインが均衡で、スタックが無限になるとEVはポットに収束というちょっと現実離れしたものですが、次回はもうちょっと現実的です。そして、また面白い結論が出てきます。
複数のストリートがあるという事がゲームにどういった影響を及ぼすかが分かると思います。

この記事が気に入ったらサポートをしてみませんか?