ソルバーのEVを鵜吞みにしてはいけない理由

Wagon_man

2024年6月7日 00:54

はじめに

この記事ではソルバーを使ってEVロスを判断することの危険性を示します

先ずAKQゲームを使って複数均衡の具体例を示した後、そのような場合にレンジ全体の頻度が0%のアクションの評価を均衡を使って行うことの危険性を示します

AKQゲームの手抜き均衡

以下のAKQゲームを定義します

OOPはKのみを持ち、IPはAとQを1:1の比率で持つ
potサイズは1で、OOPとIPはそれぞれpotbetもしくはcheckのみを選択できる
相手にbetされた場合はcallかfoldのみを選択できる

このゲームの均衡は以下のアクションを行います

OOPの戦略
①.最初のアクションで100%の頻度でcheckする
②.IPにbetされた場合、50%の頻度でcallする
IPの戦略
①.OOPがcheckした場合、Aを100%Qを50％の頻度でbetする

ここまではよく知られていると思います、しかし戦略とは起こりうる全ての状況でのプレイヤーの行動を定めたものなので、上記だとOOPにbetされた場合の対応が定まっていないIPの戦略が不完全です

当然のことですが、OOPにbetされた場合にIPの利益が最大になる反応は次の通りです

Aを100%の頻度でcallしてQを100%の頻度でfoldする

しかし、均衡とは「全てのプレイヤーが自分だけの戦略の変更によって利益を増やすことができない」を満たす戦略の組なので、最適なbetを行い、かつOOPのbetEVをcheckEV未満に抑えることができるIPの戦略は均衡に含まれる条件(OOP戦略に対して最適であり、かつOOPに戦略変更の余地を与えない)を満たすことができます

具体的には次の条件を満たすIPの戦略は全て均衡に含まれる条件を満たすことができます

OOPがCheckした場合、Aを100%Qを50％の頻度でbetする
OOPがbetした場合、Aを100%Qを0から50%未満の頻度でcallする

(Qを50%の頻度でcallするとOOPのbetとcheckがindifferentになります)

よってこのゲームに次の2つの均衡が存在することが分かります
(名前は便宜的なものです)

完全均衡
OOPの戦略
①.最初のアクションで100%の頻度でcheckする
②.IPにbetされた場合、50%の頻度でcallする
IPの戦略
①.OOPがcheckした場合、Aを100%Qを50％の頻度でbetする
②.OOPがbetした場合、Aを100%の頻度でcallしてQを100%の頻度でfoldする

手抜き均衡
完全均衡のIPの戦略の②を次のものに置き換える
②OOPがbetした場合、Aを100%Qを40%の頻度でcallする

絶対に負けているQをcallする頻度がある戦略が均衡に含まれるのは直観に反するかもしれませんが、手抜き均衡においてOOPのcheckEVが0.25に対してbetEVは0.2なのでOOPは戦略変更によってEVを向上させることができないので、均衡の条件である「全てのプレイヤーが自分だけの戦略の変更によって利益を増やすことができない状態」を維持しています

手抜き均衡を基準にするとミスが過小評価される

上記のAKQゲームでKをbetしてしまった場合のGTOに対するEVロスを均衡を使って確認する状況を考えてみます
（この記事ではGTO＝均衡に含まれる戦略とします）

このとき不幸にも手元にある均衡が手抜き均衡だったとします、この場合ではChecEV0.25に対してbetEVは0.2なので、このミスはGTOに対してはpotの5%のEVを失うと解釈されます

しかし実際に対峙したプレイヤーが完全均衡に含まれる戦略(これもGTOです)を再現するプレイヤーだった場合にはbetEVは0なのでpotの25%のEVを失います

今回の例は極端な例ですが、均衡が複数存在する場合に均衡を使ってレンジ全体の頻度が0%のアクションのGTOに対するEVロスを確かめようとすると、EVロスが過小評価されてしまう可能性があることが示されました

実際にソルバーの出力によってレンジ全体の頻度が0%のアクションのEVが異なるケースを筆者は何度も見ています
詳細については、ばいなりさんの記事の「CFRアルゴリズムはサボる」の項目を参照してください

GTOはGTO通りにプレイしないプレイヤーに対して無意味ではないが…

均衡と戦略の定義を説明したので、ついでに「GTO通りにプレイしないプレイヤーに対してGTOは無意味」という主張について考えます

上記で説明したようにGTOには均衡から外れたアクションに対する反応も定められており、どの均衡に含まれる戦略を使っても均衡から外れたアクションを使うことで相手がその均衡以上のEVを得ることを阻止できます(HUに限る)

なので、均衡から外れたプレイヤーに対してGTO通りにプレイすることには意味があります

しかし、上記のように均衡が複数存在する場合では、採用する均衡によって均衡から外れたプレイヤーに対するEVが異なる可能性があります

まとめ

均衡は複数存在する場合がある
均衡が複数存在する場合に均衡を使った評価をすると、レンジ全体の頻度が0%のアクションのEVロスが過小評価される可能性がある
GTO通りにプレイすれば、相手のEVを均衡以下に抑えられるが(HUに限る)自身が得られるEVは均衡によって異なる

この記事が気に入ったらサポートをしてみませんか？