No.5 GTO Wizard Blogの解釈記事【Understanding Nash Distance】

2024年4月18日 20:55

本記事はGTO Wizard Blogを私なりに解釈し、友人に説明するならどのように書くかな？と再まとめしたものとなります。
今回の記事は「Understanding Nash Distance」になります。
※結構難しめの記事です。

今回はナッシュディスタンス（Nash Distance）というものを導入し、ソルバー（GTO Wizard）の「なぜ？」に迫ろうと思う。本記事は他の記事に比べると最初は有用性が低いため、ポーカーを勉強したての方は異なる記事を読むことをお薦めする（筆：面白くないと思います。）。GTO Wizardを使用したり、ポーカーツールの成り立ちを知りたくなったりした場合にはまた改めて本記事に戻ってきてほしい。

最初にナッシュディスタンスとは計算の精度のことであると思っておいてほしい。後ほど説明もするが、100%の計算精度からどれだけ計算が荒いか。を示す指標である。別の言い方をすると100%の計算精度は一切エクスプロイトされず、そこからズレることでエクスプロイトされうる可能性がある。とも理解してもらっても構わない。

さて、GTO Wizard等のソルバーを使って勉強する際に、こんな場面に遭遇する。

「このアクションよりも、高いEVがあるのに、なぜわざわざ低いEVのアクションが正解となっているのだろうか？」

例えば、以下のシナリオではチェックが一番高いEVのアクションであるにも関わらず、「ベットをしなさい。」と指摘されているのである。

「なぜこのようなことが起こるのか」を理解するためには、まずゲーム理論の基本原理を理解する必要があり、以下から説明をしていこうと思う。

■ 混合戦略の原則について

過去の記事にて出てきた混合戦略について改めて整理しよう。

（筆：失礼しました。全く出てきてませんでした。）

混合戦略というものはGTO Wizardでよくベット40％、チェック60％の頻度でアクションしなさい。と出ているものがあるかと思う。
例えば、以下のレンジはSB 3bb open時のBBのディフェンスレンジである（赤：レイズ、緑：チェック、青：フォールド、右下の数字：EV/POT％なのですが今は無視しておいてください）。その中でアクションが複数あるものがあるかと思う。それが混合戦略である。また、1つのアクションしかない場合は純粋戦略と言う。

混合戦略で重要なことは、「完全な均衡の場合、混合戦略は常に同じEVを持つ」である。つまり、1つのハンドにおいて、2つ以上のアクションが存在する（混合する）場合、それらのアクションは同じEVを持つ必要がある。と言える。

さて、ではなぜ例で挙げたアクションは「わざわざEVが悪い戦略を選ぶのだろうか？そもそもEV全部違うが、混合戦略とは？はて？」となるだろう。

ナッシュ均衡の大原則があり、「均衡のためにEVを犠牲にする」ことは決してしない。最初の例では、ソルバーがA7oを「チェック/27％,73％,127％ベット」の間で戦略を混合していることがわかるだろう。しかし、これらのアクションは同じEVではない。

なぜこのようなことが起こるのだろうか？なぜA7oでチェックすることが最もEVが高いアクションであるにもかかわらず、「エラー」と見なされるのだろうか？

■ ソルバーのノイズについて

実は我々が確認できるソリューションは不完全なものである。実際ソリューションは完全な精度（100％計算が完了した状態）で計算されるわけではなく、カウンターされる可能性が残った状態で計算を終了させる。 ※全体的にカウンターされる可能性が低いほど、ソリューションとしての精度が高くなる。

ソルバーは最初に説明したナッシュディスタンスまたはdEVと呼ばれるメトリックを使い、ソリューションの精度を定義する。ちなみに、GTO Wizardは大体ポットの0.2％〜0.3％程度で計算を解いている。

さぁ、これはどの程度エクスプロイトが可能なのだろうか？

例えば、BTN vs BBのシナリオで、ポットが5.5BBであるとする。この場合、GTO Wizardのソリューションは5.5BB×0.3%＝0.017BB/1handsのカウンターが最大で可能であることになる。

これが「ソルバーノイズ」と呼ばれるものであり、実際人間のプレイレベルをはるかに超えていて、気にする必要はないレベルである。恐らく、完全な精度で計算されると、このノイズは消え、全ての混合アクションは同じEVになるはずである。

その他の理由も説明しておこう。ほとんど行われることのないプレイラインでは、アクション間にEVの大きな相違が出る場合がある。これは、ソルバーが計算効率を高めるために、計算プロセスの早い段階で必要のないプレイラインを計算しなくなるためとなる。そのため、最初の例では極低頻度のアクションEVが高くなっているのである。

■ エクスプロイトの可能性

筆：ソルバーのノイズであることはわかった。でも念のため、計算結果として、最も高いEVのアクションを常にとっておこう。EV MAXXXXXX!!!!

残念ながら、必ずしもそうはならない。今すぐ行う、たった一回だけの戦略に対しては、上記の考え方は最善の手となるだろう。しかし、「常にA7oをチェックする」という戦略を取ると、理論的にはBBが我々をエクスプロイトし、EVが低くなってしまう可能性がある。

これはなぜだろうか？実はこれには「混合戦略」が重要になってくる。混合戦略は「エクスプロイトされないためにソルバーが構築する戦略」なのである。言ってしまえば、混合戦略があるから、エクスプロイトされないようになっている。と言ってしまってもよい。

別にEVが同じだから一方的に同じアクションを選択しよう。という考えはNGで、混合戦略を取らないとエクスプロイトをされる可能性が生まれるため、混合戦略を取ってほしい。

（筆：さぁさぁさぁ、言葉遊びみたいになりますが、相手が別にエクスプロイトしてこない前提があるのであれば、EVが同じなので同じアクションを取り続けて良い。ということになります。上記内容は混合戦略を取らない場合はエクスプロイトされうる余地を相手に渡してしまう。ということです。だから鈍感な奴には気にしなくていい★ってこと。）

では、上記の例を完全な精度で計算した場合、チェックは依然として最も高いEVのアクションになるのだろうか？
恐らく、A7oには2つのアクションの可能性があるだろう。

チェックは、より低いEVに収束し、使用されなくなる世界線。
または他のベットオプションと同じEVに収束し、一定の頻度で使用され続ける世界戦。

これは完全な精度で計算しなければ、確実に知る方法はないのが残念なところである。一般的に、低頻度のアクションは消える一方で、EVが低くなるが適度な頻度で行われるアクションは戦略の一部として残る傾向がある。結論、これらが3.5％未満の頻度で行われるアクションが「不正確」として表示される理由である。

■ その他の例

上記例を見てみよう。
プロップ：A♠9♥5♦　チェック/チェック
ターン：8♥ チェック/75%bet/コール
リバー：6♥ チェック/51%bet/65%レイズ/AI

A7oはコールとフォールドの混合となっている。しかし、コールはフォールドよりも明らかに高いEVで、コールは約1.7BB高い。

これはなぜ混合しているのだろうか？理由はシンプルでエクスプロイトされないためである。またEVの差は「そるちゃん：気にすんな」である。オールインにコールした後のポットは200.05BBになる。従って、1.8BBの誤差はポットの約0.9％に過ぎないのである（しかし、0.9％といっても、ポットが大きいと、1％の誤差はより大きく感じることだろう）。

もし全てをコールする場合、エクスプロイトされてしまう問題が出てくる。境界線上のブラフキャッチャーをすべてコールすることを想像してみよう。突然、君はオーバーコールのプレーヤーになり、バリューヘビーの相手にエクスプロイトされる可能性がある。

■ なぜ完璧な精度で計算しないのん？

結論、時間がかかるからです。
（筆：パズドラのランク1,000までとランク1,000→1,010までレベリングするのに同じ経験値が必要なのと同じことですね）

均衡解に近づくにつれ、互いはエクスプロイトしつくし、収束が非常に遅くなってしまう。「計算の始まり→0.5%」 = 「0.5%→0.25%」の時間が大体同じなのである。また、そこまで精度高くやったとしても、0.5%と0.25％のエクスプロイト可能性はほぼ一緒であるし、ソルバーが出す回答もそこまで変わらない。結局、どちらもソルバーノイズは持っている。

代わりに、計算を容易にするために超シンプルなツリーを作成できる。しかし、簡略化をしすぎると、ツリー制限によるゆがみが生じてしまう。

結論、追い求めたとしても、人間が対応できるエクスプロイトレベルを超えており、あまり意味のない領域まで計算しても意味はないのである。
以下の図は0.3%の精度まで計算した計算過程の例である。図の通り、最初は計算が早く進むが、均衡に近づくにつれて、遅くなることがわかるだろう。

■ 我々はソリューションから、何を読み取ればよいのだろうか？

ソルバーがアクションを混合している場合、最も高いEVのアクションを探す代わりに、最も頻度の高いアクションを見ることにしよう。EVの不一致が見られる場合、ソリューションのノイズによるものだからである。
混合されたアクションは同じEVとして扱い、もしEVの不一致があれば誤差の範囲と考えよう。

GTOの目的は、エクスプロイトされる可能性のない最高EV戦略を見つけることである。今回説明した誤差は、全てのソリューションに見られるだろう。君の目標は、より高いレベルの戦略を抽象化し、GTOの論理を考えることである。

この記事が気に入ったらサポートをしてみませんか？