【翻訳】ダイナミックサイジングのベンチマーク【セオリー】GTOWブログ.84

2024年6月10日 12:52

ダイナミックサイジングは、各意思決定ポイントにおいて最もEVの高いベットサイズで戦略を自動的に簡略化する、画期的な新しいポーカーアルゴリズムである！
ダイナミックサイジングは機械学習アルゴリズムを使って最適なサイジングを推定する。ここで疑問が生ずる。このアルゴリズムはどの程度の精度なのだろうか？最適なサイジングをどれくらいの頻度で見つけ出し、そのパフォーマンスをどう測定するのだろうか？それを知るために、私たちは広範なベンチマークテストを実行した！

パフォーマンスの概要

ダイナミックサイジングは、最適な1サイズのベッティング戦略と比較して、リバーのEVの99.95%を担保する。
ダイナミックサイジングは、95%の確率で最適に近い（EV損失0.25%未満）ベットサイジングを見つける。
ダイナミックサイジングは、どの固定サイジング戦略よりも優れたパフォーマンスを発揮する。
ダイナミックサイジングは、非常に複雑なストラテジーを使用した場合と比較して、リバーのEVの99.7%を担保する。
ダイナミックサイジングは、時間/収束が要因である場合、より複雑な戦略より実戦では優れたパフォーマンスを発揮する。
ダイナミック戦略は複雑な戦略よりも研究しやすく、実装しやすく、ノイズが少ない。

全てのテストは簡略化による最大のEV損失が予想されるリバーで行われた。ダイナミックサイジングアルゴリズムは、それ以前のストリートでさらに優れたパフォーマンスを発揮するはずである！

テスト方法

私たちは100bbのヘッズアップハンドをセルフプレイを使用して何百回もシミュレートし、500のリバースポットの精度をベンチマークした。リバーのサンプリングにセルフプレイを使う利点は、より一般的なスポットがデータにより多く反映されることである。パフォーマンスを測定するために、両プレイヤーが8つのベットサイズと5つのレイズサイズを持つ複雑な戦略をプレイした場合の期待値(EV)を測定することから始めた。次に、一方のプレイヤーに単純化した1サイズの戦略を与え、再計算してEVの損失を測定した。このプロセスを両方のポジションについて別々に繰り返した。リバーはCFRを用いて0.05%ポットの精度で解いた。ドンクベットのスポットはOOPの計算から除外した。

ダイナミックサイジングアルゴリズムは、単一のベストサイズ戦略と比較して、リバーでのEV損失は平均わずか0.05%である。
また、8つの異なるサイズを持つ複雑なリバー戦略をプレイした場合と比べても、平均EV損失はわずか0.30%であり、固定された単一サイズ戦略よりも優れている！

「Single Best Size」は、最適な一律サイズ戦略をプレイする場合のパフォーマンスを表している。
「Complex Strategy」は、8つのベットサイズを持つ複雑な戦略をプレイする場合のパフォーマンスを表している。
すべての場合において、ヒーローは私たちの簡略化された戦略を徹底的に罰しようとする複雑な搾取的な相手と対戦していることになる。

複雑な戦略に対するダイナミックサイジング戦略のパフォーマンス

最初のテストでは、単一ベットサイズのダイナミック戦略が、より複雑な戦略と比較してどの程度のパフォーマンスを示すかを確認した。8つのベットサイズを1つに簡略化すると、常に最良のサイズを選んだとしても、理論的にはEVの損失が発生することに留意して欲しい。
次のグラフは、より複雑な戦略を使った場合と比較して、ダイナミック・アルゴリズムがどれだけの頻度（縦軸）で異なるEV損失（横軸）を達成したかを示している：

単一サイズのダイナミック戦略では、平均してリバーEVの99.7%を獲得できることがわかった。EVの損失はポットの0.1%から0.5%の範囲であることが多く、ポットの1%を超えることはほとんどない。

単一サイズ戦略に対するダイナミックサイジング戦略のパフォーマンス

最も公平なパフォーマンステストは、我々が選択しうる最良の単一サイズに対するEV損失を測定することである。

次のグラフは、最適の単一サイズ戦略でプレーした場合と比較して、ダイナミックアルゴリズムがどれだけの頻度（縦軸）で異なるEV損失（横軸）を達成したかを示している。

ダイナミックアルゴリズムは、78%の確率で最適なリバーのベットサイズを選択し、約95%の確率で0.25%EV未満の損失となる最適に近いベットサイズを選択した。

ダイナミックサイジングは、多くのサイズが同じようなペイオフをもたらすスポットにおいて、より多くの変動性を持つ。1つのサイズが明らかに有利なシナリオもあり、ダイナミックサイジングが最適なベットサイズを選択する可能性が高いのはこういった場合である。

最適なリバーサイズとは？

リバーでのベッティング戦略を1つのサイズに単純化するとしたら、どのサイズがベストなのだろうか？

私たちは、単一サイズのリバー戦略をプレーした場合のEVの損失を測定した。繰り返すが、これは、私たちの単純化を罰するために全力を尽くしている複雑な搾取的相手と対戦する場合との相対的な比較である。次のインタラクティブチャートは、リバーで1つの固定ベットサイズを使用した場合のEV損失を表示している。また、ポジションでフィルタリングすることもできる！

（インタラクティブチャートはnoteに引用不可の為原文のリンクから触れてください。スクショだけ添付します）

各データポイントは、リバーで1つのベットサイズまたはチェックを使った場合のEV損失を表している。例えば、ベット100%は、ポットサイズのベットまたはチェックをリバーで使用した場合のEV損失を測定したことを意味する。最適なリバーの固定ベットサイズは、IPでは約75%～100%のポットサイズ、OOPでは約50%のポットサイズのようだ。固定サイズのEV損失が、複雑な8サイズ戦略をプレイするのに比べて比較的低いことに驚いた。このデータから、リバーでOOPでは50%とIPでは75%ポットをプレイするだけで、かなり強力な固定ベットサイズ戦略を取れることが示唆される。

このことは、なぜOOPがIPよりも小さなベットサイズを好むのかについて、いくつかの興味深い理論的な疑問を投げかける。一つの説明として、IPはベットするとアクションを再開するため、ベットサイズを大きくしてよりポラーな戦略を使うべきだというものがある。一方、OOPはアクションを再開しないので、ブロックベットするインセンティブが高く、チェックのEVが低いため、コールされたときに少しビハインドになっているハンドでもバリューベットすることができる。しかし、これは別の記事で議論することにしよう！

Slumbotに対するベンチマーク

Slumbotと対戦したとき、150,000ハンドのトライアルで最も成績が良かったのは、1サイズのダイナミックサイジングを使ったものだった。理論的には、複雑な戦略の方が単純な戦略よりも優れているはずだが、7秒の移動制限によって、単純なアプローチの方が高い精度を達成することができた。

Slumbotとの両戦略の対戦のグラフを見て欲しい。どちらの対戦も、Ruse（現GTO Wizard AI）がSlumbotを大きく上回ったが、Dynamicアルゴリズムの方が勝率が50%高く、対戦中の分散も少なかった。
複雑な戦略 vs Slumbot

ウィンレート 13.1bb/100
70%信頼区間: 8.8 〜17.3 bb/100
95%信頼区間 4.5〜21.6 bb/100

ダイナミック戦略 vs Slumbot

ウィンレート 19.4 bb/100
70%信頼区間: 15.3 〜 23.5 bb/100
95%信頼区間: 11.2 〜 27.6 bb/10

まとめ

ポーカープレイヤーは戦略を単純化することでEVを失うのではないかと心配することがあるが、経験上、その逆であると自信を持って言える。単純化された戦略は、あなたの学習経験とウィンレートを向上させる。ゲームに不必要な複雑さを排除し、最も重要なことに集中することで、精度と自信の両方が向上する訳だ。

ベンチマークの内容をまとめると

ダイナミックサイジングは、最適な単一サイズのベッティング戦略と比較して、利用可能なリバーのEVの99.95%を捕捉する。
ダイナミックサイジングは、95%の確率で最適に近い（EV損失0.25%未満）ベットサイジングを見つける。
ダイナミックサイジングは、どの固定サイジング戦略よりも優れている。
ダイナミックサイジングは、非常に複雑なストラテジーを使った場合と比較して、利用可能なEVの99.7%を獲得します。
ダイナミックサイジングは、時間や収束が重要な要素である実戦において、より複雑な戦略よりも優れている。
ダイナミック戦略は複雑な戦略よりも研究しやすく、実装しやすく、ノイズが少ない。
すべてのテストは単純化することによるEVの損失が最も大きいと予想されるリバーで行われた。ダイナミックサイジングアルゴリズムは、それ以前のストリートではさらに優れた性能を発揮するはずである！

単純な戦略をうまく実行すれば、複雑な戦略を下手に実行した場合よりも必ず成績が良くなる。

・・・・・・・・・・・・・・・・・・・
記事は以上になります。最後まで読んでいただきありがとうございました。
この記事を読んで良いと感じて頂けましたら、noteのスキ、やSNSでの拡散、Xのフォロー、サポート等をして頂けますと、本当に執筆の励みになります！

この記事が気に入ったらサポートをしてみませんか？