見出し画像

ソルバー開発者がGTO戦略という用語の濫用に物申す

note初投稿です。3年前くらいにテキサスホールデムを知り、それ以来たまに友人とプレイして楽しんでいます。知り合い以外とプレイしたいというようなモチベーションは無く、ライブポーカーはやったことがない程度にはプレイヤーとしてはクソザコなのですが、理論的な話は大好きで、完全に無料で使えるGTOソルバーを趣味で自作して半年ほど前にリリースしました:

ブラウザ版 (WASM Postflop): https://wasm-postflop.pages.dev/
Windows版 (Desktop Postflop): https://github.com/b-inary/desktop-postflop

PioSOLVERGTO+といった商用ソルバーたちと比べてしまうと機能面では現状まったく及びませんが、条件を揃えるとWindows版の実行速度はこれらの商用ソルバーよりも高速だったりします。GTOソルバーに対する理解という点では、トッププレイヤーを差し置いて国内でも有数のレベルに位置しているのではないかと自負しています。

そんなバックグラウンドを有した筆者から見ると、ポーカープレイヤーの間でよく語られる「GTO」という概念は、国内外問わずはっきり言ってあまりに濫用されすぎているように感じています。さらになぜ濫用されるのかと言えば、これもはっきり言うとポーカープレイヤーの多くがGTOという概念を何となくでしか理解していないからです。

そこで本記事では、GTOという単語を見たことはあるがよく知らないという程度の初学者の方にも分かるように、GTOという概念を筆者流のやり方で定義します。きちんと定義を与えると、GTOがなぜGTOたり得るのかが分かるようになると同時に、なぜ筆者がGTOという用語が濫用されていると主張するのかも分かるようになります。また、GTOという概念そのものではなくそのソルバーが抱えている問題点についても簡単に解説していきます。

GTO (Game Theory Optimal) とは何か

これまでGTOという略語をロクに解説もせず使ってきましたが、GTOとは Game Theory Optimal の略で、日本語に訳すと「ゲーム理論最適」という感じになるでしょう。ちなみにゲーム理論 (game theory) とは複数のプレイヤーが関与する “ゲーム” を数理的に研究する学問のことで、現代では特に経済学との関わりが深い学問でもあります。このようなゲーム理論という強力な武器のもとで最適である、というニュアンスの言葉なわけですね。

ところで、この「GTO」という語はどのような語を修飾するのかというと、筆者が思うに基本的には「戦略」(strategy) という単語にしか係らないのではないでしょうか。なお戦略とは、このような状況で手番が回ってきたらどの確率でどのアクションを選択するかというのを、すべての状況に対して予め決めておいたものを指す用語です。ほかに「GTO」が修飾し得る語としては「解」とか「ソルバー」とか「プレイ」とかを挙げることもできますが、どれも間にある「戦略」の語を省略しているだけとも考えられます。

「GTO戦略」の筆者流の定義

それでは「GTO」はゲーム理論を援用した用語であって「戦略」を修飾する語であるということが分かったところで、「GTO戦略」をゲーム理論の用語を用いて筆者流に定義したいと思います。


定義1 (GTO戦略). GTO戦略とは、二人ゼロサムゲームにおいてナッシュ均衡をなす任意の戦略の組に含まれる戦略のことである。


……初学者の方にとっては意味の分からない定義かもしれませんが、この後できちんと解説していくのでどうかこのまま読み進めていただけると幸いです。また逆に勘の良い方は「二人ゼロサムゲーム」に限定されていることが気になっているかもしれませんが、これもこのまま読み進めてくださると私の意図が理解できるようになるかと思います。

二人ゼロサムゲームとは

まずは定義1に出てきた「二人ゼロサムゲーム」という用語の解説から始めていきましょう。と言っても、この用語を知らなかったとしても多くの方がイメージされるであろう内容で恐らく合っていて、二人ゼロサムゲームとは

  • 二人でプレイするゲームであって、

  • 両プレイヤーの得る利得を足し合わせるとゼロになる、すなわち片方のプレイヤーが得た点数と同じ点数をもう片方のプレイヤーは失うという対称的な構造になっている

ようなゲームのことを指します。ポーカーで言えば「レーキのないヘッズアップ」(ついでに時間稼ぎをすればインマネになるとかいうこともない)がこの二人ゼロサムゲームにあたります。

ナッシュ均衡とは

さてこの勢いで「ナッシュ均衡」についても解説していきたいところなのですが、こちらの理解は一筋縄ではいかないかもしれません。まずはナッシュ均衡を日本語で定義したものを見てみましょう。


定義2 (ナッシュ均衡). ナッシュ均衡とは、すべてのプレイヤーの戦略の組であって、どのプレイヤーも、自分以外のプレイヤーがそのナッシュ均衡に従った戦略を採用している限りは、自分の戦略を変更することによって利得の期待値をこれ以上増やすことができないような組のことである。


ナッシュ均衡という用語に初めて触れるという方は、まずこの定義を3回でも5回でも読み返してからこの先に進むことをおすすめします。

まず要点は、太字で強調しましたがナッシュ均衡は戦略の組であるということです。そしてこの戦略の組は、ある意味ですべてのプレイヤーが最善を尽くしたものでもあります。このような戦略の組は1つに定まることもありますが、ゲームの性質次第で多くの場合は複数個、もっと言えば無限個存在することもあります。なお有限なゲームにおいては、混合戦略を含めると少なくとも1つのナッシュ均衡が必ず存在します(ナッシュの定理)。

二人ゼロサムゲームにおけるナッシュ均衡の性質

筆者流の「GTO戦略」の定義を思い出すと、「二人ゼロサムゲームにおいてナッシュ均衡をなす任意の戦略の組に含まれる戦略」だったのでした。なぜこのような戦略がGTO、すなわちゲーム理論最適と言えるのかというと、二人ゼロサムゲームにおいてはナッシュ均衡は非常に嬉しい性質を持っているからです。


定理3. 二人ゼロサムゲームにおいて、片方のプレイヤー(Aとする)がナッシュ均衡に含まれる戦略(=GTO戦略)を採用しているとする。このとき、他方のプレイヤー(Bとする)がいかなる戦略を採用しようとも、ナッシュ均衡時と比べて、プレイヤーAの利得の期待値が減少することは無い

(証明)ナッシュ均衡の定義より、プレイヤーAがその戦略を固定している限り、プレイヤーBはナッシュ均衡から外れても利得の期待値を増加させることはできない。すなわち、ゲームのゼロサム性より、プレイヤーBの利得が増加しないということは、プレイヤーAの利得は減少しない。


つまり、プレイヤーAは「GTO戦略」を採用することで利得の期待値の最低値が保証されるわけです。ただ、これではまだ複数個存在し得るナッシュ均衡どうしの関係性についての言及が無いので、もう少し深掘りしてみます。


定理4. 二人ゼロサムゲームにおいて、異なる戦略の組 $${(\sigma_A, \sigma_B), (\tau_A, \tau_B)}$$ がどちらもナッシュ均衡であるものとする。このとき、これら2つの戦略の組がもたらす両プレイヤーへの利得の期待値は等しい

(証明)戦略の組 $${(\sigma_A, \sigma_B)}$$ を両者が採用したときのプレイヤーAの利得の期待値を $${u_A(\sigma_A, \sigma_B)}$$ といったように表記する。以下、背理法によって定理を示す。すなわち $${u_A(\sigma_A, \sigma_B) \neq u_A(\tau_A, \tau_B)}$$ であるものと仮定し、さらに一般性を失わずに $${u_A(\sigma_A, \sigma_B) > u_A(\tau_A, \tau_B)}$$ とおく。ここでプレイヤーAが戦略 $${\sigma_A}$$、プレイヤーBが戦略 $${\tau_B}$$ を採用したとする。このとき、定理3より両者の利得の期待値はそれぞれ $${u_A(\sigma_A, \sigma_B)}$$ および $${u_B(\tau_A, \tau_B)}$$ を下回らないが、

  • $${u_A(\sigma_A, \sigma_B) > u_A(\tau_A, \tau_B)}$$(仮定)

  • $${u_B(\tau_A, \tau_B) = -u_A(\tau_A, \tau_B)}$$(ゼロサム性)

よりこれらの和は正の値を取り、ゲームのゼロサム性に反する。よって仮定は誤りで $${u_A(\sigma_A, \sigma_B) = u_A(\tau_A, \tau_B)}$$ が成り立つ。


定理5. 二人ゼロサムゲームにおいて、異なる戦略の組 $${(\sigma_A, \sigma_B), (\tau_A, \tau_B)}$$ がどちらもナッシュ均衡であるものとする。このとき、片方のプレイヤーの戦略を入れ替えた組 $${(\sigma_A, \tau_B)}$$ および $${(\tau_A, \sigma_B)}$$ もナッシュ均衡となる。

(証明)定理4より $${u_A^* = u_A(\sigma_A, \sigma_B) = u_A(\tau_A, \tau_B)}$$ とおき、$${u_B^* = -u_A^*}$$ も同様に定める。戦略の組 $${(\sigma_A, \tau_B)}$$ を考えると、

  • $${u_A(\sigma_A, \tau_B) \geq u_A^*}$$(定理3)

  • $${u_A(\sigma_A, \tau_B) = -u_B(\sigma_A, \tau_B) \leq -u_B^* = u_A^*}$$(ゼロサム性および定理3)

が成り立つため $${u_A(\sigma_A, \tau_B) = u_A^*}$$ となる。このプレイヤーAの利得の期待値は、プレイヤーBが戦略 $${\tau_B}$$ を採用している場合における最大値であるから、戦略の組 $${(\sigma_A, \tau_B)}$$ はプレイヤーAに関してナッシュ均衡の定義を満たす。プレイヤーBに関しても同様で、また戦略の組 $${(\tau_A, \sigma_B)}$$ についても同様。


以上に紹介した定理3~5はすべて強力な定理です。これらの定理をすべて用いると、ある二人ゼロサムゲームに複数のナッシュ均衡が存在しても、GTO戦略を1つでも見つけることができれば

  • その戦略を採用することで利得の期待値の最低値が保証され、

  • かつその最低値はすべてのGTO戦略において共通する最大の最低値で、

  • 相手がどのようなGTO戦略を採用している場合でもGTO戦略どうしは必ずナッシュ均衡をなす

と言うことができます。

この主張は理論家から見ても非常に美しいものですが、プレイヤーから見ても非常に心強いもので、これだけを見ると多くのプレイヤーたちがGTO戦略を勉強しようとするのも当然だとは思います。ゲーム理論最適とかいう仰々しい看板に恥じない内容と言えるでしょう。……しかし、この美しく有用な主張は「二人ゼロサムゲーム」の枠を外れるとまったく働かないのです

一般のゲームにおけるGTO戦略とは?

筆者流の「GTO戦略」の定義ではゲームが二人ゼロサムのものに限定されていましたが、世間では二人ゼロサムに限らないゲームにおいても「GTO戦略」の語が濫用されていることが多いように思います。ここではそのような戦略を「なんちゃってGTO戦略」と呼ぶことにしましょう。


定義6. なんちゃってGTO戦略とは、二人ゼロサムでないゲームにおいてナッシュ均衡をなす任意の戦略の組に含まれる戦略のことである。


なぜ筆者はここまでして二人ゼロサムでないゲームにおいて「GTO戦略」という語を用いることに対して頑なに「濫用」であると指摘し、「なんちゃって」などとこき下ろすのかと言うと、「なんちゃってGTO戦略」に対してはゲーム理論は本当に何も保証してくれないためです。

より具体的に言えば、上で紹介した定理3~5はすべて成り立ちません

  • 「なんちゃってGTO戦略」を採用したからと言って、その「なんちゃってGTO戦略」を含むナッシュ均衡における利得の期待値はその最低値として機能しません

  • 二人ゼロサムでないゲームにおいて、異なるナッシュ均衡がもたらす各プレイヤーへの利得の期待値は一致するとは限りません

  • すべてのプレイヤーが「なんちゃってGTO戦略」を採用しても、それがナッシュ均衡をなすとは限りません

一体これのどこがゲーム理論最適なのでしょうか。ナッシュ均衡という道具は確かに定義に関わっていますが、このように理論的に嬉しい性質をまったく持たないような戦略のことを「ゲーム理論という学問のお墨付きを得た “最適な”」ものであると喧伝するのはあまりに不誠実だと思うのです。

……ちなみに、非ゼロサムゲームにあたるレーキのあるポーカーに関しては、まさしく「GTO」であると言えるアイデアを筆者は持っています。それは、ビッグブラインド以外のプレイヤーは常にフォールドするようにプレイヤー間で結託して、レーキの取られないプリフロップで必ず終わらせることです。

このような戦略の組はゲーム理論の用語では「パレート最適」または「パレート効率的」であると呼ばれますが、用語からして「最適」という語を含むくらいですし、これがゲーム理論最適でなかったら何なのでしょうか。理論はしょせん理論なのですから、机上の空論だろうが知ったこっちゃありません。胴元が得をするだけの複雑なナッシュ均衡解なんぞをGTOという御旗を掲げて持て囃す方が理論家からすればどうかしています。

このあたりで結論をまとめることにすると、繰り返しになりますが、筆者に言わせれば意味のあるような「GTO」すなわち「ゲーム理論最適」な戦略が存在するのは二人ゼロサムゲームに限られていて、そうでない一般のゲームにおいて「GTO」などと謳われているものに関してはゲーム理論は何も保証してくれないことに注意する必要があります。

さまざまな「GTOツール」や「GTOソリューション」が役立たずだとか主張する気はまったくありません。しかし、何となくベースラインとして良さそうな雰囲気をまとっているだけの戦略を「GTO」であるなどと喧伝する不誠実な商売の影響力を削ぐには、プレイヤー側が正しい知識を得ていかなければならないと思います。

補足: GTO戦略と最適反応戦略および可搾取量について

GTO戦略に関する性質について、筆者のように数学書的な紹介をする文献は稀であって、ほとんどの場合は「最適反応戦略」(best response strategy) と比較して語られることも承知しています。

いや、ここに至ってもなお「最適反応」というゲーム理論の用語にこだわって「エクスプロイト」(exploit) という用語を紹介しないのは筆者がひねくれているから……というのもありますが、エクスプロイト戦略って必ずしも数学的に定義するのが適切なものではないような気がしているんですよね。いきなり最適反応戦略を採用するのは最も過激なエクスプロイトのやり方であって、最初はちょっとレンジを広める/狭めるだけといったような穏やかなエクスプロイトから入ることも少なくないと思うので。

よって、同じゲーム理論の土俵で比較できるのは、ナッシュ均衡に基づくGTO戦略と、ゴリゴリにエクスプロイトを狙う最適反応戦略の2つということになるでしょう。大した定義ではありませんが、まずは最適反応戦略という用語の意味を確認しておきます。


定義7 (最適反応戦略). 最適反応戦略とは、自分以外のプレイヤーの戦略が与えられたもとで、自分の利得の期待値を最大化する戦略のことである。


GTO戦略と最適反応戦略の関係性は次のようにまとめることができます。

  • GTO戦略は相手があらゆる戦略を取り得ることを想定した条件下における最善を目指したものだが、最適反応戦略は相手の戦略を固定したもとでの最善を目指している。実際に相手の戦略が想定通りだった場合は最適反応戦略は最大の利得を獲得できるが、想定が外れていたり、自分の戦略に相手が適応してきた場合は最適反応戦略は脆弱になる。

  • 自分側のあらゆるGTO戦略と相手側のあらゆるGTO戦略は、お互いがお互いの最適反応戦略となっている。なお、相手側のGTO戦略に対する自分側の最適反応戦略が自分側のGTO戦略になっているとは限らない。

GTO戦略と最適反応戦略が深く関わる指標として、可搾取量 (exploitability) と呼ばれる値を挙げることもできます。


定義8 (可搾取量). 二人ゼロサムゲームにおいて、ある戦略の可搾取量とは、自分の戦略が相手に筒抜けで常に最適反応戦略を取られてしまうような状況 (*) において、自分がGTO戦略を採用していた場合と比べてどれだけ搾取されてしまうかを表す値のことである。すなわち、GTO戦略が保証する利得の期待値の最低値と、状況 (*) におけるある戦略の利得の期待値の差。


可搾取量は必ず非負の値を取りますが、すべてのGTO戦略は可搾取量がゼロであるため、このような意味で搾取(エクスプロイト)することができない戦略であると呼ばれるわけです。また、GTOソルバーが精度の保証のために示してくる可搾取量は得られた戦略の組に対して定まる値で、両プレイヤーの戦略の可搾取量の平均として定義されることが多いです。

ところで、ゲーム理論最適という語義を満たすからと言って、自分以外のプレイヤーの戦略が与えられた条件下では最適反応戦略を「GTO戦略」と呼んでも良いのではないかという主張がなされることがありますが、筆者はこれに反対です。最適反応戦略は簡単に計算が可能ですし、ゲーム理論という学問をほとんど知らなくてもすぐに理解できるものだからです。最適反応戦略は最適反応戦略であって、ゲーム理論を援用する必要性を感じません。

また、GTOソルバーのノードロックと呼ばれる機能を用いて特定のスポットにおいてのみ戦略を固定した条件で計算されたソルバー戦略は、ある意味でGTO戦略と最適反応戦略の中間と言えるでしょう。しかしながら、このソルバー戦略は安易な使い方のもとではあまり役に立たないのではないかという主張を後述します。

GTOソルバーの抱える問題点

さて、ここまでは「GTO」という概念を筆者流に定義した上で、「GTO」という語は濫用されすぎているなどと説いたわけですが、ここからは(なんちゃってを含む)GTO戦略を実際に計算してくれている「GTOソルバー」が抱える問題点について簡単に列挙していこうと思います。

まずは、現代のGTOソルバーを支える大黒柱となっているCFRアルゴリズムが抱える問題点から見ていくことにします。なお宣伝になりますが、筆者が所属する同人誌サークル yabaitech.tokyo の vol.7 で、CFRアルゴリズムとその周辺に関する詳細な解説を40ページ以上にわたって記述しています。興味のある方がいましたらご購入を検討いただけると幸いです(なお次の新刊となる vol.8 の発売と同時に vol.7 を無料公開とする可能性がありますが、2022年11月時点では vol.8 の発売予定はまったく未定です)。

CFRアルゴリズムとは一言で表せば「展開型の二人ゼロサムゲームにおいてナッシュ均衡に収束することが保証されているアルゴリズム」なのですが、「展開型」という新しく出現した用語はここでは無視することにしても、「二人ゼロサムゲームにおいて」「収束する」という怪しい記述が2つも含まれていることが分かります。

二人ゼロサムゲーム以外ではCFRアルゴリズムは無保証

二人ゼロサムゲームの世界では、CFRアルゴリズムはナッシュ均衡に収束する上に、そのナッシュ均衡も非常に美しい性質を持っているわけです。しかし二人ゼロサムゲームの世界を離れると、ナッシュ均衡の嬉しい性質が失われるだけでなく、そもそもナッシュ均衡に収束することすら保証されないアルゴリズムを用いて「ナッシュ均衡かもしれない何か」を計算しているというのが現状です。

理論的には、CFRアルゴリズムは強支配されている戦略を排除してくれるというくらいの保証しかなされていません。とは言え、そのようなアルゴリズムが実際に使われているのにはそれなりの理由はあります。強いのです。どうせナッシュ均衡が嬉しい性質を備えていないのですから、ナッシュ均衡にこだわる必要が無いというのは言われてみれば頷けて、強さこそ正義ではあるのですが、ただGTOを名乗るのはおかしいだろうという話でして。それっぽい略語で箔をつけたいのであれば「CFRツール」「CFRソリューション」で良いじゃないですか。

CFRアルゴリズムは反復解法であり厳密解は得られない

ナッシュ均衡に収束することが保証されている二人ゼロサムゲームの世界に再び戻ることにしましょう。しかしこの世界においても、CFRアルゴリズムは厳密にGTOであると言える戦略を求めることはできません。これは、CFRアルゴリズムが反復解法と呼ばれる、定められた処理を繰り返すことで求めたい解の近似を徐々に改善していくような手法であるためです。

とは言え、定義8で定めた可搾取量という概念を用いることで、得られた近似解とナッシュ均衡との距離を定量的に測った結果をGTOソルバーは通常示してくれます。可搾取量が十分に小さければ実用上は問題無いのですが、やはり厳密にはGTOでは無いよねという気持ちがあります(このあたりから「自作GTOソルバー」がブーメランになるので主張が弱気になります)。

ここからはCFRアルゴリズムとは直接関係の無い問題を扱います。

ソルバーが解くのは抽象化されたゲーム

テキサスホールデムのゲームの複雑性 (game complexity) は相当高く、ポストフロップに限定してもそのままでは一般の計算機のメモリではまったく足りません。そこで、GTOソルバーを使ったことがある方にはお馴染みだと思いますが、GTOソルバーはベット額やレイズ額の候補が数種類に限定された抽象化 (abstraction) されたゲームを解きます。

よって、得られた戦略は抽象化されたゲーム上では確かにGTOであったとしても、もとのゲーム上ではGTOではないでしょう。この点からも「GTOソルバー」が計算できるのはあくまで限定的なGTO戦略に過ぎないことが分かります(ブーメラン再び)。

なお、プリフロップのソルバーを走らせるにはベット額を絞る程度の抽象化ではまったく不十分で、かなりアグレッシブな抽象化が必要になります。実装の詳細は筆者にも分かりませんが、既存のソフトウェアは恐らく「似たハンド」を同一のハンドとして扱うなどといったさまざまな工夫によって、計算結果の有用性を可能な限り保ちながらゲームの複雑性を必死に下げようとしています。この努力は本当に尊重しますが、GTOという概念からはさらに遠ざかってしまっているのも事実です(得てしてソルバー開発者はGTOとは謳っていないにも関わらず、利用者の側が「GTOソリューション!」などと言っているだけだったりするのですが)。

相手のハンドレンジを推測する必要がある

ポストフロップソルバーはその性質上、すべてのプレイヤーのハンドレンジを入力する必要があります。ソルバーが弾き出すのは入力されたハンドレンジを仮定したときのGTO戦略であるため、ハンドレンジの推測が誤っていると正しいGTO戦略を求めることはできません。このことをソルバーの抱える問題点として扱うべきかは微妙ですが、少なくとも注意は必要です。

Bunching effect を考慮するのが難しい

PioSOLVERやGTO+、また筆者の自作ソルバーといった1対1の状況下におけるポストフロップソルバーは、レーキが無い設定ならば、いちゃもんをつけることは可能ではあるもののGTOソルバーと呼んでも差し支えなさそうに思えます。ところがポストフロップで1対1であっても、3人以上でテーブルを囲んでいた場合は怪しくて、それというのもこれらのソルバーはプリフロップでフォールドしたプレイヤーのホールカードを考慮できないからです。

プリフロップでフォールドしたプレイヤーの持っているホールカードは弱い方に偏っています。そのため、プリフロップでフォールドしたプレイヤーの数が多いほど、自分のホールカード、相手のホールカード、ボードのすべてが強い方に偏ることになり、このことを bunching effect と呼びます。

先に挙げたソルバーたちは、この bunching effect を考慮するオプションを持っていません。これはソルバーを実装すると分かるのですが、bunching effect を考慮しようとすると計算量のオーダーが変わってしまうためです。このため、3人以上でテーブルを囲んでいた場合は、残った2人のレンジをいくら正確に入力しようとも、真のGTO戦略からはズレた戦略しか得られないということになります。

補足: ソルバーのノードロック機能について

商用ソルバーにはノードロックと呼ばれる機能が備わっており、特定のスポットにおける戦略を固定した条件でソルバーを走らせることができます。このような条件下で求まった戦略をGTOと呼べるかどうかで議論になっているのをたまにツイッターなどで見かけますが、筆者的にはこれはNOであると表明しておいた上で、そもそもノードロックって使いこなすにはかなり高度な技術が必要ではないかという話をしたいと思います。

というのも、戦略を固定した特定のスポットにおけるリークを、ソルバーはそれ以外のスポットで全力でカバーするように頑張ってしまうためです。ですから、自分の採用する戦略を簡易化できないかをノードロックによって模索するのは良い使い方だと思いますが、相手のリークを想定してそれを搾取する戦略を模索するには安易には使えないというのが筆者の持論です。特定のスポットにリークがあるが、それ以外のスポットでは全力でバランスを取ってくるような奇特な相手は実際には存在しないでしょうから。

終わりに

note初投稿ということで、気合が入ってしまって1万字を超える記事になってしまいました。とはいえ冗長な記述をしたつもりもなく、「GTO」という用語の解説および問題点の指摘を行う記事としてそれなりに満足いくものが書けたと思います。

PioSOLVERが2015年に登場してから7年経った2022年現在では、ブラウザ上で簡単に閲覧できるいわゆる「GTOソリューション」の影響力が強まっており、ソルバーを自分で回すユーザーは減少傾向なのではないかという感覚を持っています。ですが、本記事を最後まで読まれた方には理解していただけたと思いますが、二人ゼロサムでないゲームにおいては「GTO」などというものはありませんし、ソルバー自体もさまざまな仮定や問題点を抱えながら成り立っています。

世にある「6-maxでレーキありのプリフロップソリューション」などというものは「ヒューリスティックな抽象化が施されたゲームにおける、ヒューリスティックなアルゴリズムによって求まったナッシュ均衡かもしれない何かの、しかも近似解であって、よしんばそれがナッシュ均衡だったとしても利得の最低値が保証されたりするわけでもないような戦略」を示しているに過ぎないことをプレイヤー側はしっかりと理解する必要があると思います。

そのようなソリューションを「GTO」などと呼ぶ風潮に対して本記事が風穴を開けるきっかけになれば良いなと期待しつつ、この辺で筆を置きたいと思います。最後まで読んでくださりありがとうございました。

この記事が気に入ったらサポートをしてみませんか?