見出し画像

AKQゲーム: 無差別化の原理(Indifferent Principle)とは

はじめに


wizardの動画

この解説記事を書く前日、Poker discordの通話仲間から、
「yukiさん!この動画を一緒に見て解説してください!」

と頼まれました。
僕がずっとオススメしてるWizard先生のyoutube動画です。

Wizardの動画は、①基礎、②wizardの使い方、③ハイステ実戦の
主に3種類に分かれ、超有料級コンテンツを無料で公開している
太っ腹な動画です。

①基礎(Weekly coaching)の中でも、
"GTO vs Exploitative"は、私が特に好きなコンテンツだったので、
「いいよ〜」と答え、解説しながら一緒に見てあげました。

AKQゲーム

その動画の中でポーカーを理解するために、
本当に重要な理論である、「AKQゲーム」

「Indifferent Principle (無差別化の原理)」のクイズが出されます。

全部英語なので、日本語に訳すと、

・完全ポラー vs ブラフキャッチャーのトイゲーム (千里眼ゲーム)
・ SPRは1
・ナッツかブラフを1:1で持ってるHero vs キャッチャーを持ってる Villain
・StreetはRiver
・Bet sizeはAll-in

の状況(具体例は下)において、

Heroが、AAを100%, QQを50%の頻度でAll-inした場合、
   (この場合Valueが2, Bluffが1, それぞれ割合としては2/3と1/3)

Q1
Villainが100%Foldしている時に、GTO戦略が保証するEVよりも得をするのはどちらでしょう?
a)Hero
b)Villain
c)どちらでもない

Q2
Villainが100% callしている時に、GTO戦略が保証するEVよりも得をするのはどちらでしょう?

a)Hero
b)Villain
c)どちらでもない


今度は立場を変えます。
●VillainがKKを50%の頻度でcallする場合、

Q3
Heroが常にQQをブラフする時に、GTO戦略が保証するEVよりも得をするのはどちらでしょう?

a)Hero
b)Villain
c)どちらでもない

Q4
Heroが常にQQをブラフせずにcheckする時に、GTO戦略が保証するEVよりも得をするのはどちらでしょう?
a)Hero
b)Villain
c)どちらでもない

(スクロールし過ぎると答えが見えるので、先に自分の答えを出してみてね)

















答え

全部cです!

※ちなみに一緒に動画を見てあげたK君は、
Poker Starsの10NL zoom (ある程度勉強しないと勝ち越せない)を、
短期で勝ち越してるレベルです。が、全部間違えましたw
流石にAKQ (Indifferent Principle)くらい知ってるよな〜と思ってたw
(ダシに使ってごめんね、K君w)

いやいや、マジで?って思ったので、
AKQゲームの理解度を知るために、
Twitterでアンケートを取ってみました。
N数(サンプル数)は申し分ないです。

https://twitter.com/yuki_pmf/status/1539403325837148160


アンケート結果は、それはそれはショックなものでした。

「AKQゲーム」って言葉の認知度は高いはずなのに、
「AKQゲームの本質」を理解している人は、こんなにも少ないのかと。


自分の勉強(input)も兼ねて、
このNoteで解説してみようと思います!
(GTO Wizardの無料動画[youtube]を元に解説してるし、このNoteはもちろん無料です)





GTO戦略って何なの?


AKQゲームと同じで、
GTO (Game Theory Optimal)という言葉は知っているけど、
その本当の意味を知らない人も多いんじゃないでしょうか?

GTO(均衡)とは、
「あるゲームに参加している全プレイヤーが用いる戦略の集合で、この時どのプレイヤーも今の戦略を一方的に変更したくなる要因が存在していない状態を言います」

分かりにくいので噛み砕いて言うと、
相手がどんな戦略を取ってこようと、自分は相手にエクスプロイトされることは無く、相手に余程明確なリークが無い限り自ら戦略を変更する理由が無い状態(戦略)を指します。

そもそも GTOって、bot Aと、bot Bを戦わせて、
bot Aの戦略を固定して、bot Bは、戦略を変えてAをエクスプロイトしにいく。

そのあとに、
bot Bの戦略を固定して、今度はbot Aが戦略を変えて、Bをエクスプロイトしにいく。

続けて、
bot Aの戦略を再度固定して、bot Bが戦略を変えて、Aをエクスプロイトしにいく。




これを何度も何度も続けて、
bot Aもbot Bもお互いに、エクスプロイトのしようがない状態
すなわち「均衡」となった戦略を、
GTO 戦略(均衡)というのです。

だから、GTO戦略は相手にエクスプロイトされない戦略なのです。

うわー!すげえ!GTO最強じゃん!
GTOさえ学べば、ポーカー最強!うおおぉ〜!

と思ったあなた(過去の私もそう)、
実はGTOだけやっていれば、
ポーカーが強くなる訳ではないんです。

相手にエクスプロイトされない戦略で、相手がミスを犯した時に、
GTO戦略は相手から利益を得る(エクスプロイトできる)のですが、

これは受動的(パッシブ)なエクスプロイトであり、
能動(積極)的なエクスプロイトとは、異なる方向性を持っています。


GTOの基準を知り、エクスプロイトされない盾を持っておき、
相手がミスを犯している(GTOからずれている)と悟れば、
こちらから積極的にGTOの戦略を変えて、相手を懲らしめる
(MESやminES: エクスプロイト)剣を持つ、

これがGTOを学ぶ本当の意味であり、
AKQゲームから学べる、ポーカーの真理だと思います。
・レーキがあり(胴元が最強)ステークスの平均より少し上程度の実力では全然勝ち越せない
・フィールドの大半がレクリエーショナル
な状況下で均衡(GTO)で打っているのはヌル過ぎなんですよね。



GTOについては、私の説明より何倍も分かりやすい
無料で読める良記事があったので、
リンクを貼っておきます。(良かったらお布施してあげてね!)
(自分で説明する文章を書くのが面倒だから、人の記事に頼ったよw)



もう一度クイズです。
Q5
GTOはどんな時に、利益を得られるでしょう?

a)いつ何時も利益を得られる
b)相手が頻度のミスを犯した時に得られる
c)相手が純粋なミス(GTO的な頻度のない戦略を取る)を犯した時に得られる
(スクロールし過ぎると答えが見えるので、先に自分の答えを出してみてね)

















c)です。
この考え方は、冒頭のクイズ(Tweetのクイズ)と大きく関わってきます。

物凄く勘違いされているのですが、
GTO的に、その戦略(混合戦略)が許容されている場合、

相手がどちらの戦略を選択しようが、
(相手が頻度のミスを犯していようが)
GTO戦略を実行しているプレイヤーのEVは変わりません。

※相手がどんな選択を取ろうが、こちらのEVは変わらない
  (=無関係、無意味、無差別)
だから、無差別の原理 (Indifferent Principle)と呼ばれます。

GTO戦略は、
相手の「頻度のミス」からはEVを得られませんが、
相手の「純粋なミス」からEVを得ます。

(その意味では、パッシブなエクスプロイトです)


冒頭の具体例に戻ります。
完全なポラーレンジを持つHeroが、
SPR=1において、Riverで取るべきGTO戦略は、

AAは、100%頻度でAll-inを行い、
QQは、50%頻度でAll-in, 50%頻度で諦めcheckを行うこと
です。

このGTO戦略を取ってしまえば、相手がcallしようが、Foldしようが、
冒頭の例だと、$7.5のEVが保証される
のです。

※この場合callerのKはCallとFoldを頻度で行う事がGTO戦略であるため、
頻度のミスは犯そうとも、純粋戦略のミスになりません


クイズの解説(前半)



(冒頭の問題を再掲)

・完全ポラー vs ブラフキャッチャーのトイゲーム (千里眼ゲーム)
・ SPRは1
・ナッツかブラフを1:1で持ってるHero vs キャッチャーを持ってる Villain
・StreetはRiver
・Bet sizeはAll-in

の状況(具体例は下)において、

Heroが、AAを100%, QQを50%の頻度でAll-inした場合、
   (この場合Valueが2, Bluffが1, それぞれ割合としては2/3と1/3)

Q1
Villainが100%Foldしている時に、GTO戦略が保証するEVよりも得をするのはどちらでしょう?

Q2
Villainが100% callしている時に、GTO戦略が保証するEVよりも得をするのはどちらでしょう?



●VillainがKKを50%の頻度でcallする場合、

Q3
Heroが常にQQをブラフする時に、GTO戦略が保証するEVよりも得をするのはどちらでしょう?

Q4
Heroが常にQQをブラフせずにcheckする時に、GTO戦略が保証するEVよりも得をするのはどちらでしょう?

a)Hero
b)Villain
c)どちらでもない


冒頭でお伝えしたように、答えは全てc)になるんですが、そもそもどうしてなのでしょう?


HeroがVillainの選択を無差別化させる


●Heroが、AAを100%, QQを50%の頻度でAll-inした場合
(この場合Valueが2, Bluffが1, それぞれ割合としては2/3と1/3)

VillainのGTO戦略は50%頻度でKKをdefenseすることですが、
Villain (キャッチャー側、KK)が、

①50% Call (Villain 側のGTO戦略)
②100% Fold
③100% Call

した時のHero側のEV(期待値)を実際に計算してみましょう。

EV = (勝つ確率) x (勝った時に得られるチップ) ー 
   (負ける確率) x (負けた時に失うチップ)

で表わされます。



①Villain (KK)が50% callする場合 [VillainはGTO戦略]
ⅰ)HeroがAAを持っている時の期待値

Heroは、
必ずAll-inをします。
$10のpotに、$10のbetをしますが、

Villainは、
50%頻度で$10をコールして、Heroが$20を得て、
50%頻度でFoldして、Heroは$10を得ます。

なので、期待値は、
EV(AA)=1/2 x $20 + 1/2 x $10
             =$15

ⅱ)HeroがQQを持っている時の期待値
Heroは50%の頻度でAll-inをし、
Villainは50%の頻度でコールし、50%の頻度でFoldします。

Heroが50%の頻度でcheckをする時は、
Potを諦めるので得られるチップは$0です。
なので、期待値は、
EV(QQ)=1/2 x 1/2 x  $10 - 1/2 x 1/2 x $10 + $0
             =$0

AAとQQは50%ずつHeroに配られるので、
EV(total)=1/2 x $15 + 1/2 x $0
               =$7.5
となります。

勘が良い人はこの辺で気づくでしょう。
②も③も期待値が$7.5になると。

計算してみます。



②Villain(KK)が100% Foldする場合
ⅰ)HeroがAAを持っている時の期待値 
毎回Foldされるので、betさえすればpotと同じ額のEVを得ます。
AAの場合、毎回betするので、
EV(AA)= 1 x $10
            =$10

ⅱ)HeroがQQを持っている時の期待値
Heroは50%頻度でAll-inをして、50%頻度で諦めcheckをします。
この場合
EV(QQ)= 1/2 x $10 + 1/2 x $0
             = $5

故に
EV(total)=1/2 x $10 + 1/2 x $5 
               = $ 7.5


③Villain(KK)が100% callする場合
ⅰ)HeroがAAを持っている時の期待値 
毎回callするので、AAは毎回勝ちます。
EV(AA)= 1 x $20
            =$20

QQはベットした時必ず負けます。
EV(QQ)= 1/2 x $0 - 1/2 x $10
             =-$5

故に
EV(total) = 1/2 x $20 - 1/2 x $5
                = $7.5


何と、HeroがGTO戦略(2/3のvalueと1/3のbluffでAll-in)を取ると、
Villainがどの割合でcallとFoldをしようが、
HeroのEVは変わらない結果となりました。(Q1, Q2の答えです)

・KKを100% callしてしまう (実戦で言う所のCalling Station)
・KKを100% foldしてしまう (実戦で言う所の降り過ぎマン)
相手は、直感的に弱いと感じると思いますが、

今回のように、Defense側が、ベットに直面した時に、
CallとFoldの混合戦略を行うことが、GTO戦略の場合、
いくら相手が、Calling Stationや降り過ぎマンで
頻度のミスを犯していようが、

Bettor側は、GTO戦略をとり続ける限り、
GTOが保証する以上のEVを得ることはできないのです。

なぜこのようなことが起きるのでしょう?

実は、
HeroがVillainがどのアクションを選択しようが、
EVが変わらないように仕組んでいるからです。
(KKはcallとfoldの混合戦略部分であり、GTO戦略は頻度のミスを咎められるものではないです)

この状態では、Villainはどの選択肢を取ろうが、
HeroのEVを下げる(=自分のEVを上げる)ことが出来ません!
(つまり、HeroはVillainの選択を無意味(=無差別)にしています)

だから、「無差別化の原理」
英語だと「Indifferent Principle」と言います。

逆に言えば、これがGTO戦略の強みです。



※英語訳す時って、翻訳家は、なぜこうも難しく翻訳するんですかね?
「相手の選択を無意味にするベット(アクション)」
「GTO保証以上のEVは得られないけど、搾取されない鉄壁ベット」

とか訳せば、AKQゲームの理解者は増えるのではないでしょうか?




VillainがHeroの選択を無差別化させる

Defense側でも同じことが起きます。

●Villainが、Heroのbetに直面した時に、50%頻度でKKをcallする場合

④HeroがGTO戦略通り、AAが必ずAll-in, QQを50%頻度でAll-inする場合
(value2: bluff1, それぞれ2/3, 1/3)
⑤HeroがQQを毎回ブラフする
⑥HeroがQQを毎回ブラフしない
場合を考えてみましょう。


④HeroがGTO戦略通り、AAが必ずAll-in, QQを50%頻度でAll-inする場合
ⅰ)HeroがAAを持っている時のvillainの期待値
フォールドすると0、コールするとコール額だけマイナスです
EV(AA)=1/2 x $0 - 1/2 x $10
            =-$5

ⅱ)HeroがQQを持っている時のVillainの期待値
Heroは50%頻度でbetしてきて、
それをVillainは更に50%頻度でコールとフォールド

Heroがbetしてこない時は、そのまま$10が得られる。
EV(QQ)=1/2 x 1/2 x $20 + 1/2 x 1/2 x $0 + 1/2 *$10
             =$10

よって、
EV(total) = 1/2 x (-$5) + 1/2 x ($10)
                = $2.5

同様に、(ここから、説明端折ります)
⑤HeroがQQを毎回ブラフする
EV(AA) = 1/2 x $ 0 - 1/2 x $10
              = -$5 

EV(QQ) = 1/2 x $0 + 1/2 x $20
               =$10

EV(total) =1/2 x (-$5) +  1/2 x $10
               = $2.5

 
⑥HeroがQQを毎回ブラフしない
EV(AA) = 1/2 x  $ 0 - 1/2 x $10
              = -$5 

EV(QQ) = $10

EV(total) = 1/2 x (-$5) + 1/2 x $10
                =$2.5 


そうです。この場合も、VillainがGTO戦略である、
MDFの50%でディフェンスしてしまえば、
Heroの戦略によらず、EVは担保されるのです。(Q3, 4の答え)

さっきの言葉で、言い直せば、
「相手の選択(ベット)を無意味にするコール(アクション)」
「GTO保証以上のEVは得られないけど、搾取されない鉄壁コール」
です。


とりあえず、答えに納得してもらうために、ここまで殴り書きしました。


ここまで読んで、勘の良い人なら、

①ポラライズしている側のEVが、キャッチャーのEVよりも高いのではないか?

②GTOから外れている戦略
(KKを100% callや、100%fold, QQを100% bluffや100% bluffしない)
の相手に対しては、
GTO戦略ではなく、こちらがGTO戦略から外れ搾取しにいけば、
よりEVを得られるのではないか?

②はつまりこういうことですよね。
>自分がBettorの場合、相手がタフコーラーや降りすぎの人相手には、
bet頻度を変えたら、GTOが保証する以上のEVを得られる?

>自分がCallerの場合、相手がブラフ打ちすぎ or 打たなすぎの相手には、
call頻度を変えたら、GTOが保証する以上のEVを得られる?

と思うかもです。
その通りです。

その話は、気が向いたらまた加筆 or 続編記事を出します。

🌟この記事の題材にした動画は、凄い良いコンテンツなので見てみてね。

P.S.
AKQの無料記事でしののさん以上のモノはありません。
五部作になってますが、全部理解するまで読むと良いと思います。


この記事が気に入ったらサポートをしてみませんか?