No.6 GTO Wizard Blogの解釈記事【Why doesn’t my solution match GTO Wizard?】

2024年4月23日 22:52

本記事はGTO Wizard Blogを私なりに解釈し、友人に説明するならどのように書くかな？と再まとめしたものとなります。
今回の記事は「Why doesn’t my solution match GTO Wizard?」になります。

今回は見ているソリューションの前提条件合っている？という記事を紹介しようと思う。こちらも前回と同様、他の記事に比べると最初は有用性が低いため、ポーカーを勉強したての方は異なる記事を読むことをお薦めする。

（筆：記事としては面白いです）

■ 比較は同一の条件で行おう。

ソリューションを比較する前に、まず「同じ条件（以下の5つの点）」にて比較をしているのかは必ずチェックしよう。
（筆：GTO Wizard Blog様はソリューションで。の観点ですが、仲間とポーカーのことを話す時も仕事の時も、まず同じ条件で話しているのかは確認したほうがいいですよね）

同じプリフロップレンジを使用しているか？
同じベットサイズを使用しているか？
同じレーキ構造になっているか？
同じSPRか？
十分な精度で計算しているか？

※SPRとは
SPRは「Stack-to-pot ratio」の略で、有効スタック（エフェクティブスタック）をポットで割った数字である。別の記事で詳しく記載するので、そういうものがあるんだなぁくらいで思っていてください。

上記の確認を「必ず」と言っているのは、最初に決めた初期パラメータの微差がバタフライ効果を引き起こし、ソリューションの結果を変えてしまう可能性があるからだ。本記事の冒頭では、異なる初期パラメータを使用すると、導き出される戦略が劇的に変わることについて解説しようと思う。

もし完全に同じパラメータを使用した場合、同じ戦略になるのでは？と想像するかもしれない（筆：数学みたいに行きつく答えは一緒でしょ。とね!!!）。しかし、そうとはならず、ソルバーのアルゴリズムが違えば、似たようなスポットでも異なる戦略を生み出すことがある。だからと言って、一方の戦略が優れていることを意味するわけではない。実際、異なるように見える戦略も、EVやエクスプロイトされる可能性等の値が近い値となることもある。

■ 初期パラメータの違いが与える戦略の変化について

本項目では初期パラメータの違いによって、ソルバーが解く戦略の違い（変化）をみていこう。

例１：ブラインドバトルのリンプ有無

プリフロップレンジが異なれば、異なるポストフロップ戦略をもたらす。もし、比較対象のレンジと君が使用しているプリフロップレンジにてベットサイズが異なる場合、同じレンジを使っていない可能性は大いにある。
以下に例を挙げよう。SBのオープンレンジを、リンプ（コール）を使用する場合と使用しない場合で比較する。左側には「Generalソリューション」があり、右側には「Simpleソリューション」がある。

赤色がレイズ、緑色がリンプである。リンプ戦略はRFI（レイズファーストイン：最初にレイズして入ること）をわずかにだがポーラライズ（筆：後に記事で取り上げるはずです。今は簡単に「強いハンドと弱いハンドが混合したレンジ」と考えておいてください。）する。右戦略（レイズ戦略とします。）は左戦略（リンプ戦略とします）と比較して、9,T周りのミドルカードが比較的に多く、ローカードとハイカードがわずかに少ない。この差がポストフロップにも差として現れてくるので、見ていこう。

例えば、リンプ戦略はQT8のフロップを55％の頻度でチェックする。しかし、レイズ戦略では46％の頻度でチェックをする。

余り詳しくはやらないが右下のEQバケツを見てほしい。これは自身のEQを強さ順に分けたものである。一番下のトラッシュハンドはEQがないゴミハンドと思っておいてもらってよいが、その割合はレイズ戦略の方が少ない。9､T回りのミドルカードが比較的に多いレイズ戦略の方がボードにマッチし、よりベットできる。と考えても良いだろう。

（筆：もっといろんなことを検討できますがシンプルに書きました。本記事で伝えたいことは初期設定の違いで以後の戦略にも違いが出るよ。ってことです。恋愛と一緒です。はい。）

（筆2nd：上記に「右戦略（レイズ戦略とします。）は左戦略（リンプ戦略とします）と比較して、9,T周りのミドルカードが比較的に多く、ローカードとハイカードがわずかに少ない。」と書きました。じゃあ、ボードがハイカードに寄った時はどうなるのだろう？ローの時は？等、読むだけではなく、いろんなことを妄想＆検討するとポーカーの引き出しがどんどん増えていきます。オヌヌメです。）

リンプ戦略

レイズ戦略

例２：BTN vs SB 3bp（3bet pot）時の3betサイズ

本例では、AKKr（「r」はレインボーのこと）における500NL Complex/General ソリューションのSBフロップ Cbet（コンテニュエーションベット）戦略を比較する。

Complexソリューションはより小さい10BBの3betサイズを使用し、よりリニアなレンジ（強いハンドから順にかき集めたレンジと思っておいてOK）を持っている。この小さい3betはBTNがより広いレンジでコールできる一つの原因となる。さらに、Complexソリューションでは、この種のフロップに関して小さいベットサイズがよく用いられる（筆：相手が広くコールをしているのであれば、ベットによって落とせるトラッシュハンドも多いよね→じゃあ安いcbを高頻度に打って、潰してやるぜ!!の意）。これらの要因が重なり、SBはより頻繁に（72%のcbet頻度）cbetを行うようになるのだ。

Complexソリューション

一方でGeneralソリューションはより大きな12BBの3betサイズを使用し、ややポーラーでトップヘビーなレンジを持っている。この大きなサイズの3betによりBTNはよりタイトにコールするようになる。さらに、Generalソリューションでは最小のベットサイズはポットの33％であるため、これがより多くのチェックを誘発するのである。これらの要因が合わさり、SBはより頻繁にチェックするようになる（48％のcbet頻度）。

Generalソリューション

例３：極小サイズベットの有無によるBTN vs BB SRPの集合分析

GeneralソリューションとBasicソリューションのフロップCbet頻度を比較しよう。

Generalソリューションでは、最小のCbetサイズが33％となっていて、先程の例と同様にベット頻度が低くなる。また、BBはより大きいサイズ、よりポーラライズされた3betを使用していて、わずかにプリフロップのコールレンジが強い。1,755のフロップを通じて、BTNは約53％の確率でCbetを行う。

（筆：下記の図は集合分析の図になります。プロップは1,755通りあり、それを全て確認するのはバカらしいですよね？Wizardはそれを集合分析の形で〇ハイボードの場合にはどのような戦略が使われているかをざっと見せてくれるのです。この場合、２ハイボード、２２２のボードになりますが、、ベット頻度かかなり高いことがわかります。また色の濃さはベットサイズの大きさを表していて、比較的に９ハイボード以上だと大きいサイズを使い始めるんだな…などがわかるのです）

一方、Basicソリューションでは最低27％のCbetサイズが使われる。その結果、ベット頻繁が多少高くなっている。BBも、プリフロップで小さいサイズ且つリニアな3betを行っていて、Generalソリューションと比較すると弱いコールレンジが形成されるようになる。よって、総合してBTNは約64％の頻度でCbetを行っている。

次の章に進む前に、認知バイアスについて触れておく。ポーカープレイヤーは、より頻繁にベットすることが自動的にEVを高めたり、そちらの方がソリューションとして優れていると考える傾向がある。

「しかし、実際にはそうではない。」

例えば、BTN vs BB SRPのAK6rのようなフロップに対して、ソルバーに小さなベットのみの選択肢を与えた場合、ソルバーは高頻度でベットをする。その後、オーバーベットを選択肢に追加すると、ソルバーは全てのバリューをオーバーベットのラインに移す。ただし、全てオーバーベットをするわけではなく、チェックの頻度もかなり高くなるのである。言い換えれば、新しいオーバーベット戦略がより高いEVであるにもかかわらず、より多くチェックする傾向がある。これは別に高頻度でベットすることが正しい!!!というバイアスの判例となる。

そのため、自分の認識を崩し、クリアな頭で座学に取り組んでほしい。

■ 異なるソルバーの結果を比較してみよう。

この章では、同一のパラメータを入力し、以下ソルバーの結果を比較していこう。
GTO Wizard/GTO+/Piosolver

GTO Wizard

GTO+

Piosolver

上記結果を比較した表を以下に示そう。

実はこのボードを選んだのには理由がある。それは多くの異なる戦略が同じEVを持つポイントだからだ。これらの戦略はどれもがプレー可能である。これらの戦略はどれも、最大0.017BB（5.5BBの初期ポットの0.3％）をエクスプロイトされる可能性を残している。

正しい戦略は一つではなく、複数存在することが上記からわかるだろう。
このコンセプトを理解するために、半円を想像してみてほしい。円周上の各点は異なる戦略を表している。隣り合った2つの点はEVが同じでも、全く異なる戦略を指す可能性もあるだろう。各点の高さは、ソリューションがどれだけ「優れているか」を示している。拡大していくにつれて、どの戦略がより優れているかを区別するのがどんどん難しくなっていることがわかると思う。

https://blog.gtowizard.com/wp-content/uploads/2022/10/why-doesnt-my-solution-match-gto-wizard-image-13.gif

↑クリックしてみてみてほしい。

もし、これらの3つのアルゴリズムに同じ戦略を出力させたい場合、非常に高い精度で計算を試みる必要がある。ただし、これは前回の記事でも伝えたように人間には再現不可能な領域で、あまり意味がないことである。その上、同じEVを持つ複数の均衡が存在しうるため、同じ出力を得られる保証がないのである。

簡単に言えば、実際のGTOソリューションは明確に定義された1つの戦略ではない。複数の正しいプレイが存在することもあり得るのである。

このコンセプトはほとんどの戦略ゲームに存在する。例えば、以下は非常に高い精度で解かれたチェスの局面である。ソルバーは、d6、e6、およびNf6といった3つの手がすべて期待値0.0を持つと計算する。もちろん、これらの手はそれぞれ異なるアイデアや戦略を持っている。しかし、これらの手はすべてプレイ可能であり、最高ステークスでもプレイされている（筆：ポーカーとは違う部分ですね。）。

■ じゃあどうすればいいんだってばよ

一部のスポットでは、同等とみなせる戦略が複数存在することを受け入れよう。そして、君が研究しているスポットを正確にモデル化するパラメータが正しければ、出力される個々のソルバー解の「どれが正しいか/どれを選択するか」はあまり重要ではない。
あるノードの正確な戦略に拘るのではなく、以下の3つを重要視しよう。

選んだ戦略をうまく実行し、徹底的にやろう。
基本的なGTOの原則を理解しよう。
GTO戦略の基となるエクスプロイト的なダイナミクスを理解しよう。（筆：GTOは相互エクスプロイトの均衡だったことを思い出しましょう）

■ 結論

本記事を読むと、「なんか難しいな」「もうどうでもいいや」等の考えになってしまうかもしれない。しかし、君のやることは複雑なソリューションを覚えることではない。これらソリューションが示す戦略の背景を理解することである。

単純に全ての解を記憶することは無理だし、十分な効果が得られない。その代わり、根本的な原則を勉強しよう。様々なスポットでのレンジ構築方法を学ぼう。そうすれば、ポーカーの神が君に舞い降りるぞ!!!
また、原則を学ぶことはエクスプロイトをするのにも役立つので損はない。

■ 筆者コラム

ポーカーのレンジを覚えようとする行為は本当にやめた方がいいです。これはシンプルに時間効率が悪いです。世の中にはイメージ記憶ができる猛者がいるようですが、そのような方が見ただけで覚えてしまう。そして一生忘れない。のであればレンジを記憶して、その通りにプレイしたらいいと思います。

ですがそうは甘くないですよね。いらないことは覚えているのに、覚えておいてほしいことは忘れてしまう。それが人間なのです。
じゃあ、ポーカーでは何を覚えたらいいか…。それは閾値を覚えることです（これはこちらの記事で紹介しています）。閾値の引き出しを増やすと割と応用が利くようになります。あ、このシチュエーションの閾値は○○だったな。じゃあこのポケットは恐らくコールの最低閾値よりも上のハンドなるだろうから、恐らくコールでしょ。等予想がつくようになります。

これができるようになると、ポーカーがより楽しくなっていきます。そして、またどんどん引き出しが増えていき、、、、、最強へ…。

ただ良くないのはその閾値を適当に使いすぎて、理由付け→バイアスが掛かってしまう。ことがあります。ポーカーは色々な条件が複雑に絡み合います。あくまでも一つの判断基準でしかないことは頭に入れておくとよいかもしれません。

さぁ、君もGTOを学ぼうではありませんか。

この記事が気に入ったらサポートをしてみませんか？