【初心者必読】エクイティ、EV、EV Regret

2021年8月2日 05:56

本稿では、ポーカーで最も重要な2つの概念、エクイティとEVの概要を説明します。
さらに、EV Regretという新しい関連概念についても説明します。

エクイティ

ヘッズアップノーリミットホールデムの専門家であるWill Tiptonは、彼の代表的な著作の中で、エクイティとは、すべてのベットを止めて、ショーダウンで両プレイヤーがチェックした場合に、プレイヤーが平均して獲得すると予想されるポットの取り分であると定義しています。言い換えれば、エクイティとは、将来のベッティングアクションを考慮せずに、すべてのありうるカード、対戦相手のすべてのあり得るハンドに対して、自分のハンドが勝つか引き分けになる可能性・確率を測定するものと言えます。
ポーカーは、ゲーム終了時に誰が一番良いハンドを持っていると思うかという予想に対してベットするゲームなので、勝つ可能性を知ることは重要です。例えば、NBAのチームと高校のチームが対戦するとし、あなたはその試合に2倍のオッズで賭けることができます。しかし、賭けることができるチームはランダムに選ばれるとします。もしNBAチームに賭ける機会があれば、勝つ可能性が非常に高いため、無限に賭けるでしょう。しかし、高校のチームに賭ける機会があったとしても、勝つ可能性が非常に低いので、全く賭けないでしょう。
ポーカーでも、ブラフはともかくとして、一般的には、ハンドのエクイティが高いほど、ポットにベットして勝つことに賭ける意欲が高まるはずで、このように、エクイティが、ハンドの強さの最も一般的な指標となります。また、0から100までの％で表されるので特に便利で、異なるシナリオでも、ハンドの強さを簡単に比較することができます。
しかし、エクイティは将来のベットを考慮していないため、実戦ではその有用性は少し限定されています。
実際には、全員がオールインしない限り、プレイヤーはベットして他のプレイヤーをフォールドさせることができるので、エクイティの実現は困難です。

Q♣5♣2♥のボードでA♠7◆のようなハンドは、ショーダウンまで行くことができれば比較的勝ちやすいので、エクイティはそれなりにあるかもしれません。

しかし、ペアを作らない限りは、相手がベットしてきた場合、エクイティを実現することは非常に難しく、エクイティのみを当てにすることはできません。これがポーカーで期待値（EV）が考慮される理由になります。

期待値（EV）

『Mathematics of Poker』では、あるアクションのEVとは、その行動をとることで起こりうる各結果の価値にその確率を掛け合わせたものと定義しています。

ソルバーでは、1つのハンドをすべてのあり得る出現カード、すべての取りうる戦略と対抗戦略を何十億回もプレイさせ、ショーダウンであろうとフォールドであろうと、チップの勝ち負けという点で起こりうるすべての結果の加重平均を加算することで、レンジ内の各コンボのEVを計算します。

つまり、ハンドそのものの価値に焦点を当てるエクイティとは異なり、EVはハンドに対して取りうる各アクションの相対的な価値に焦点を当て、すべてのあり得る偶然の要素や将来のベットやフォールドを考慮に入れます。

先ほどの例を見てみると、A♠7◆は、J♣T♥と比べて非常に高いエクイティーを持っていますが、実際にはこのコンボの方が平均EVがかなり高いことがわかります。

バックドア・フラッシュドローとバックドア・ストレートドローの両方があれば、エクイティを実現する、あるいはそれ以上のチャンスがあるからです。弱いペアを作るだけでなく、多くのターンカードで改善し、非常に強いハンドを作り、リバーの数だけチップを獲得するチャンスがあるからです。一方、A♠7◆は、非常に強いハンドを作れる確率はかなり低いです。また、仮にエースをペアにしたとしても、ドミネートされて大量のチップを失うことになることも多いです。エクイティとは異なり、EVはチップで表現され、パーセンテージではありませんが、EVはある行動をとったときに獲得すると予想される平均チップ数であるため、異なるシナリオでのEVの比較はより困難です。テーブルで決断を下す際には、常にEVが最も高いと思われる行動を取るように努めるべきで、ポーカーにおいて最も重要な指標となっています。

EV Regret

そして、ここで本稿で紹介する3つ目のコンセプトである「EV Regret」を説明します。この概念は、GTO戦略の学習を簡単にするために作られたもので、ゲーム理論の文献やGoogle検索では簡単には見つかりません。
EV Regretを考案したきっかけは、ポーカーは非常に複雑で、GTOをマスターするためには、段階的に学ぶ必要があると考えたことにあります。
ポーカーでは、EVが最も重要な指標なので、自分の知識の最大のギャップ、すなわち、自分が最適だと思っていた戦略とソルバーが算出した実際の最適な戦略との間に大きな矛盾があるスポットに焦点を当てます。この乖離の程度を評価するための主要な尺度としてEVが使用されます。

あるスポットでの戦略が、GTOに比べて非常に大きなEVの損失をもたらした場合、そのスポットに特別な注意を払う必要があります。ソルバーがなぜ違う戦略を使っているのかを理解し、それに合わせて自分のロジックを洗練させていくようにすることが重要です。自分の戦略によってエラーが発生した場合でも、比較的小さなEVロスだった場合は、通常はそのスポットに注目する必要はあまりありません。ゲームの中でより多くのことを学ぶことができる分野が他にもたくさんあり、その方が時間を有効に使えるからです。

多くの場合、ソルバーによって決定される戦略は、プレイヤーのレンジがどのようにマッチしているかを、コンボの数分の一まで考慮した結果となります。そのため、EVの小さな損失は、戦略的な論理に本質的な欠陥があるのではなく、正確な分岐点がどこにあるのか、その場所に十分に精通していないことが原因である可能性があります。
例えば、先程のハンドでフロップでのアクションがチェック・チェックになったとします。

ターンは5♥で、BBはJ♥T♣を持っているときに、再度チェックするかベットするかを決めなければなりません。
このような場面でよく使われるロジックは、次のようなものです。
・Jハイの場合、ショーダウンバリューはないが、ボタンも有利なフロップをチェックしたのであまり強くない。よって、フォールドさせるためにベットすべき。
・サイズ的には、フロップをチェックしたであろう、主にAハイタイプのハンドをターゲットにする。
・ポットの3分の2をベットすることするが、このサイジングをサポートする理由として、こちらのレンジには5XやQXも多くある。

さて、この戦略はある程度合理的に聞こえます。しかし、この仮説の妥当性をどうやって検証するのでしょうか？
先に述べたように、EVは、それぞれのアクションを取ることで、どれだけ勝つことができるかを教えてくれます。このケースでは、ポットの150%、フルポット、3分の2ポット、3分の1ポットをベットする、またはチェックする、という5つのアクションがあり、それぞれのアクションの最適な頻度がアクションの列の下に表示されています。そして、それぞれのアクションを取るときのEVが右隣の列に表示されています。ここでは、J♥T♣で3分の2ポットのベットをする場合のEVは、0.2993bbであることがわかります。

つまり、J♥T♣で3分の2ポットベットすることにした場合、相手のすべてのハンドとカウンター戦略、そしてすべてのリバーカードに対して、平均して0.2993bbを獲得できることになるということです。しかし、EVはエクイティのようにパーセンテージで表現されていないので、代替アクションのEVと比較して初めて測定ツールとしての価値が出てきます。この場合、EVが最も高いアクションはポットの150%をベットすることだとわかります。
しかし、150%のベットと3分の2のポットをベットした場合の差は、0.01bb程度でしかありません。よって、この状況では、どちらもソルバーが認めたプレイと判断するのが妥当で、なぜソルバーがより大きなベットを好むのか理解するために多くの時間を費やすのは有意義ではないと考えます。

ある特定のプレイがソルバーで正しいと認められたということは、ここですべてのJハイ以下のハンドでベットすると判断する際に使っているロジックが正しいということになるのでしょうか？そうではありません。J♠8◆など、他のJハイのコンボをチェックすると、チェックした場合のEVは、すべてのベットオプションよりもかなり高いことがわかります。

もし、今回のケースでJ♥T♣の戦略を確認しただけでレビューを止めていたら、ロジック全般は正しいが簡略化されすぎということになっていたでしょう。現実には、BBはフロップでドンクベットしていないので、100％のレンジを持ってターンに行きます。そして、そのレンジには、多くのストレートやフラッシュドローなど、よりブラフに適した特性を持つ、弱いコンボが大量に含まれているのです。よって、ブラフのし過ぎを防ぐには、Jハイ以下のコンボをすべて露骨にブラフするわけにはいかなくなります。今回のケースでは、J♥T♣がドローを持っていないにもかかわらずです。♣や♥が出たリバーでは強力なブラフ候補となります。しかし、このクラスのすべてのコンボがこれらの属性を共有しているわけではありません。言い換えれば、特定のハンドでのプレイがソルバー承認されているかどうかをシミュレーションで確認しても、その有用性は限られているということです。というのも、全く同じスポットで全く同じコンボに出会うことはまずないからです。
一般的な教訓は、共通の特徴を持つ様々なスポットに適用できます。そして、我々の論理がソルバーで正解とされているかどうかを確認する唯一の客観的な方法は、我々の得た教訓に当てはまるすべてのコンボの戦略を分析することです。しかし、想像に難くないですが、そのようなコンボのEVをすべてチェックするのは非常に面倒で時間がかかります。しかし、GTOを学ぶために主に使用されているソルバーである PioSolverには、EV比較機能があります。しかし、一度に比較できるのは2つのアクションのみで、選択したハンドグループのEVを比較することはできません。そこで、昔から「必要は発明の母」と言われているように、この作業を瞬時に行うためのEV Regretアルゴリズムが開発されました。

EV Regretは、フィルタリングされたハンドのグループに対して利用可能な各アクションについて、そのようなアクションのEVと、そのようなハンドのグループに対して利用可能な他のすべてのアクションのEVとを比較するものです。そのようなアクションのEVが最も高ければ、EVのRegret（最適戦略とのEV差）はゼロになります。それは、他の利用可能な選択肢に対してそのアクションを取ることにRegretがないことを意味するからです。しかし、代替アクションのEVがより高い場合、EV報酬は、そのアクションを取ることによって生じるEVの最大損失量をポットのパーセンテージによって表して計算します。
そこで、ユーザーが選択したハンドのクラスに対する各アクションの最適戦略とEV Regretを計算するクラスアクションテーブルを見てみると、このハンドをチェックするEV Regretは0であることがわかります。これは、このハンドに対して最もEVが高いアクションがチェックだからです。つまり、純粋戦略として、このスポットで100％このコンボをチェックすることにした場合、GTOの相手に対して期待値では何も失わないことになります。

対照的に、3分の1ポットベットした場合のEVは、4.1%ポットとなっています。これは、3分の1ポットをベットした場合のEVが、このケースで最もEVが大きいアクションであるチェックよりも著しく低いことを表しています。つまり、チェックではなく3分の1ポットベットをした場合の平均的な損失額は、GTO相手の0.2bb程度になるということです。

EV Regretの活用方法

このように一つのコンボに対してEV Regretを計算するだけでは、あまり意味がありません。この指標の真の有用性は、各ハンドを個別に分析するのではなく、より多くのハンドグループの最大EV損失を迅速に測定する場合に明らかになります。
例えば、この特定のコンボのフィルターを除去すると、クラスアクションテーブルは、レンジ内のすべてのJ8oコンボの平均アクション頻度とEVの後悔を再計算しました。そして、これらのコンボをすべてチェックした場合のEV Regretは、ポットのわずか0.5%ポットであることがわかります。つまり、このスポットですべてをチェックしてもEVロスは少なくて済むということです。

もちろん、J8oのコンボだけを集めて戦略を分析しても、あまり意味はありません。このような状況で、J8oだけのために独自の戦略を立てる人はいるのでしょうか？むしろ、AハイやKハイ未満のショーダウンバリューのないハンドなど、より広いレンジで戦略を練る人の方が多いのではないでしょうか。GTOxでグループ化してクラスを作って、このクラスのすべてのハンドで3分の2ポットベットした場合を検証した結論は、EVロスはポットの5%よりも大きいということがわかります。つまり、ここで採用したロジックでは、Jハイ以下のすべてのハンドで3分の2ポットにベットした場合、GTOのソリューションと比較して、最大で約0.24bbのEVを失うことになります。

EV Regretは、機会費用の定量化のようなものだと考えることができます。ポーカーの学習には、簡略化とEVの維持との間に本質的なトレードオフがあります。

人間は一様ではないので、GTOxでは、簡略化とEVの維持の適切なバランスをユーザー個人に委ねています。人によっては、経験が豊富だったり、情報処理能力が高かったりします。そのため、一律に学習方法を定めようとするのは愚かなことだと思います。また、すべての人が完璧なGTO戦略を採用したいわけではありません。例えば、ターンでオーバーフォールドすると思われるプレイヤーをエクスプロイトしようとした場合、0.24bbのようなEVの差は十分に小さく、相手がオーバーフォールドしたときに、ベットのEVがチェックのEVを実際に上回ることがあります。このようなシナリオでは、これらのゴミのようなハンドをすべてベットした方が利益が大きいと考えられます。
一方、よりバランスの取れた相手と対戦している場合、相手のレンジには隠された大きな罠がいくつもあるでしょう。EV Regretは、自分の戦略を練るための物差しとして使うことができます。例えば、ターンに何らかのドローがあるハンドをすべてグループ化して、3分の2ポット、フルポット、150％ポットのベットをするとしても、EV Regretは1％以下だということが分かります。

さらに、ドローのないハンドを分離してすべてチェックすることとしても、EV Regretは1.3％ということが分かります。

そして、このクラスの中で高頻度でベットされているのは、ハートとクラブの両方を持っているハンドだけです。例えば、このようなスポットでJハイ以下のハンドをすべてブラフするのではなく、Jハイ以下のハンドでドローのあるハンド、又はフラッシュのブロッカーのあるハンドをすべてブラフして、残りのハンドは諦めるというように、ロジックにニュアンスを加えることができます。

もちろん、このような洞察に基づく判断は、すべての状況において完璧ではありません。また、EV Regretをこのように使用すると、基本的にソルバーの複雑な頻度を持つ混合戦略を簡略化してしまいます。頻度のバランスをとることが重要であることに変わりはなく、完全に無視してしまうとエクスプロイトされる可能性があります。とはいえ、GTOのアクション頻度をゲーム全体で覚えるのは不可能ですし、誰もがどこかから始めなければなりません。そのため、シンプルにしてもEVの損失が大きくならない場所で精度を犠牲にすることは、多くの人にとって合理的な判断であり、より大きな弱点を持つ分野に集中する時間を確保することができます。
要するに、Equity 、EVと今回のEV Regretは、ハンドの強さとアクションの収益性を客観的に測定するためのツールであり、戦略的な意思決定を合理的かつ効率的に分析する能力を大いに高めてくれるものなのです。

GTOxを利用したい方は↓のリンクを使うと10％割引となります。
月額27ドルから58.5ドルのプランを選ぶことができます。

元記事はこちらです。翻訳掲載許可をもらっています。

※GTOx関連の記事はスポンサーからの依頼により執筆されています。

この記事が気に入ったらサポートをしてみませんか？