見出し画像

今更聞けないけどGTOって何?(初心者用)


はじめに

本稿は、「ああGTOね、いいよねあれ」「これはGTO的にはコールでしょう」とかイキってしまって、GTOって何?と思いつつも、今更聞けない人に向けての初歩的な記事になります。
PokerJawsさんが丁寧に説明されている連載投稿もあるので、こちらで理解できた方は読む必要はありません笑

GTOとは

Game Theory Optimalの略語です。日本語で言えば、「ゲーム理論的最適」。完全に(英語の)ポーカー用語でゲーム理論を勉強した人間からすると?となるような用語でもあるので、GTOはGTOと言うのがよいと思います。 
GTOは、ゲーム理論という経済学の考え方をポーカーにおいて最適な戦略を計算するために応用したものです。
※ゲーム理論といってもすごろくとかコンピュータゲームとか日本語でイメージするゲームとは基本的には無関係です。

ゲーム理論とナッシュ均衡

ゲーム理論とは、社会や自然界における複数主体が関わる意思決定の問題や行動の相互依存的状況を数学的なモデルを用いて研究する学問とのことですが、
GTOは、ゲーム理論の超重要概念である「ナッシュ均衡」を応用して、ポーカーにおける最適戦略を計算するものです。
ナッシュ均衡とは、他のプレーヤーの戦略を所与とした場合、どのプレーヤーも自分の戦略を変更することによってより高い利得を得ることができない戦略の組み合わせのことをいいます。

なかなか分かりにくい概念ですが、
①AとBの2人が対戦している場合に、AはBに勝とうと思って戦略を考える、BもAに勝とうと思って戦略を考える

②AはBの戦略がこうだと考えてその戦略に勝てるように自分の戦略を変える

③BはAが②のように戦略を変えてきたと知って、更にその戦略に勝てるように自分の戦略を変える

④AはBが③のように戦略を変えてきたと知って、更にその戦略に勝てるように自分の戦略を変える

⑤BはAが④のように・・・
というように戦略の改善を続けていった結果、AとBの双方がどう自分の戦略を変えても有利にならない状況に行きつきます。
そのような極限的状況になると、Aは自分の戦略を変えると、変えた部分をBに付け込まれる(エクスプロイトされる)ので、もう自分は戦略を変えられません。一方で、Bも同じように自分から戦略を変えると、Aにそこを付け込まれるので、お互いに均衡点まで行き着くとそこから戦略を変えられなくなります
このように複数の者でバランスの釣り合った極限的状況を、同概念を発表したジョン・ナッシュ教授の名前を取って、ナッシュ均衡と名付けられています。
※この辺のストーリーはビューティフル・マインドというジョン・ナッシュが主人公の映画に詳しいです。
因みにGTOの参考には全くなりませんが、面白い映画です。

GTO

このナッシュ均衡の概念をポーカーに当てはめたものがGTOです。
AさんとBさんが対戦している場合、例えば、Aさんがリバーのベットでバリューしか打たない場合は、Bさんはナッツ級の強いハンドを持っているときしかコールしないことが利益的になります。
一方、Aさんの方で、Bさんがナッツ級でしかコールしないことが分かれば、今度はAさんの方でブラフを増やすことで、Bさんのフォールドしすぎな戦略に付け込んで(エクスプロイトして)利益を上げることができます。
そうすると、今度はBさんの方でAさんがブラフを増やしてきたことに付け込んで(エクスプロイトして)、Bさんはナッツでなくてもコールを増やすことでAさんのブラフしすぎな戦略から利益を上げることができます。
以下同じようにお互い相手をエクスプロイトすることを繰り返すことで、AさんとBさんは、お互いにそれ以上変えることのできない均衡的なバリュー・ブラフ比(レンジ)/コール・フォールド比(レンジ)にたどり着くことになります。
Aさんは、ナッシュ均衡的なバリュー・ブラフ比を変えた場合、そこをBさんに付け込まれることで利益を失うし、一方で、Bさんもコール・フォールド比を変えた場合には、Aさんがバリューかブラフを増やすことで付け込まれる(エクスプロイトされる)ことになります。よって、両者ともその戦略を変えることが得策でない均衡的な状態、膠着状態になります。このような戦略の組合せをポーカーではGTO戦略と呼んでいます。
上記の例ではすごく単純にリバーだけを題材にしましたが、GTO戦略は、プリフロップから(現実的にはフロップから)ソルバーと呼ばれるソフトウェアを使って計算することができます。

GTOソルバー

上記のようなGTO戦略は、人力では計算リソースが足りなくて計算できませんが、現代では、スーパーコンピュータを使わなくても、ソルバーと呼ばれる専用ソフトウェアを使うことで計算することができます。代表的なものがPioSolver(ピオソルバー※)とGTO+(ジーティーオープラス)です。
※英語圏ではパイオソルバーと呼ばれていますが、ポーランド人のピョートルさんが作ったソルバーなのでピヨソルバーと呼ばれているので、ピオソルバーがより正式な呼称です。どうでもいいですがw

GTO戦略の特徴

▶ヘッズアップのみ
 ナッシュ均衡自体は2人ゲームだけでなく3人以上ゲームでも成り立ちますが、現在のところ、種々の制約からポーカーではヘッズアップでしか計算できません

レンジ等の事前に前提条件をインプットする必要
 すべてのレンジ、すべてのアクションを考慮してすべてのスタック状況下でも適用できる均衡戦略の組合せは、現代の技術でも計算できません。PioSolver、GTO+ともに、フロップ時点でのOOP側・IP側のレンジ、スタック、アクションの選択肢(レイズ額、ベット額の種類等)、ポットの額などを事前に設定して、その状況下で、フロップ、ターン、リバーでの均衡的戦略を計算するのが一般的です。なお、この所与の条件を自分でインプットしないと計算できないという点が、PioSolverでの勉強が難しいと言われる第一の理由です。  
※プリフロップでの適切なアクションを計算した「プリフロップソリューション」と呼ばれるものもありますが、オープンレンジは所与のものとしてその後の3ベット以上の最適戦略を限定的なフロップのもので計算したものが一般的です。(PioSolver Edgeであれば個人でも計算できますが、個人所有のPCではかなり限定的な状況のものしか計算できないので、業務用サーバなどで計算した結果を販売している物を購入するのが一般的です。)

GTOの活用の仕方

▶最適戦略を知る
 上記のとおり、相手のレンジやアクションの選択肢が完全に把握できていると仮定した状況におけるこちらの数学的に最適な解を知ることができます。単なる答え合わせに使うだけでは勿体ないですが、これはこれで非常に素晴らしいことで、仮定が完全に正しいとすると、こういうレンジ/頻度でコールしないといけないとか、このベットはミスだったのか、各ハンドの持つエクイティや期待値(EV)がどのような分布か、また条件を変えた場合にどのように変化するかなどとともにはっきり分かるという点は、特に独学の場合には非常に参考になります

▶特殊なアクションをする相手に対する最適戦略を計算する(エクスプロイト)
 こちらの用途がむしろメインですが、当初の入力条件下のもとでの最適戦略から外れた相手に対する最適戦略も計算できますノードロックという機能ですが、
 - 本来であればレンジの60%でコンティニュエ-ションベット(CB)しないといけないところ、全体的に40%のレンジでしかベットしていない相手にはどのようにコール/レイズ/フォールドしないといけないか、
 - その40%が著しくバリュー過多だった場合はどうか、
 - ブラフ過多だった場合はどうか、
 - 100%ベットしていてブラフが非常に多い場合はどうか、
 - また、コーラー側のチェックレイズレンジが非常に広い場合はCB側はどれくらいのレンジ/頻度でCBを打たないといけないか、
 - チェックレイズレンジが狭い場合はどうか
など自分で状況を色々変えて計算することで、数学的な解を得て、自分のプレイに活かすことができます
この仮説検証を自分で繰り返して戦略を突き詰めていかないといけない点がGTOの難しさの第2点目で、ほとんど人がついていけないレベルだと思います。私もあまりうまく活用できていません。

▶集合戦略
 レンジ、ベットの選択肢等をインプットして、複数のフロップで、IP・OOPがそれぞれどのようなアクション頻度になるか、エクイティ・EVはどうなっているかを見ることができます。1755フロップすべてでどのような傾向になるか計算することもできます。
Aハイフロップならどうだとか、ペアフロップならどうだとか、モノトーンボードならどうだなど一般的な傾向を複数のフロップで計算することができ、また、レンジなどのインプットを変えることでエクイティやアクション頻度がどのように変わるのか複数のフロップで傾向を見ることができます。この辺も、かなり難しくてついていけませんが、集合分析で検索するとかなり先行研究がありますので、詳しくはそちらをご覧ください。

GTOでよくある誤解

▶均衡について
 これまで説明したとおり、GTO解は、IP・OOPそれぞれ1対となった最適な戦略同士の組合せなので、片方の解をもって、例えばBTN側のGTO的正解などとするのは、厳密には間違っています。(あくまでもBTNとBBの均衡戦略のワンセットがGTO)
相手がGTO戦略から外れればその分EVを失い、失ったEVはそのままこちらに来るので、相手がどう外れてもこちらが当初の戦略を遵守してもEVロスはないのですが、相手が外れたことによって、こちらのEVをより高くする戦略も生まれます。(それをエクスプロイトといいます。)

▶GTOは防御的
 上記の関連でGTOは防御的とも言われますが、GTO戦略に従っても損はしないけど得もしないという意味では間違っています。相手がこちらの戦略に対してGTO戦略から外れた対応をしている場合には、こちらが得をすることになります。ただ、相手の外れる傾向に応じてこちらの戦略を変えるエクスプロイトを取った方が、よりEVが増す選択肢が生まれるということです。ただし、その場合には、反対に相手にもこちらをエクスプロイトする余地も生まれます。

▶GTO的にはコール
 均衡という概念に関連しますが、「このベットはGTO的にはコールだけど、この相手はGTOよりベットの傾向がバリュー過多になっているのでフォールドした方がいい」というのは厳密には間違っています。
「このベットは、相手がこちらの想定したプリフロソリューションのレンジを使って、フロップターンリバーの選択肢もこちらの想定した選択肢でソルバーを回して計算した結果どおりにベットがされているのであれば、コールだけど、この相手は、リバーのベットがバリューによっているのでフォールドした方がよい」というのがより正確な言い方かと思います。
GTOは対になる均衡的戦略が存在するという考え方なので、リバーのベットがバリュー過多になっているのなら、そのベットレンジの相手の戦略セットに対応したGTOが存在します。それはノードロックをすれば計算できるので、エクスプロイトと言ってもいいかもしれません。PokerSnowieが相手ならコールだけど、この相手はSnowieのベットよりバリュー過多なのでフォールドというのと同じような言い方でGTO的には・・・というのは厳密には間違っています。

▶PokerSnowieとの違い
 ソルバーは、所与の条件を与えた上で、IP/OOPそれぞれの最適戦略を計算するものです。PokerSnowieは、AI同士で何兆ハンドもプレイさせてそのハンド履歴のなかで最も期待値の高い選択を突き詰めて、その結果を正解として、そのとおりにプレイをさせて対戦したり、自分のハンド履歴を読み込ませたり仮定の状況をインプットしてSnowie的な正解と照らし合わせることができるトレーニングソフトウェアです。ソルバーと異なり10人プレイまでに対応しています。
PokerSnowieは、自分で変数(インプット)を設定する必要がないので初心者にも効果が出やすいトレーニングソフトです。一方で、ソルバーと違って、自分でインプットを変えてその変えたインプットに応じてどのような対応が最適になるかなど計算できず、また、AIが自分で学習したプレイ履歴によってブラックボックスの中で正解となるアクションを判定しているので数学的に正しいことが証明できないといった特徴があります。
ただし、前提条件となる変数を自分で変える必要がなく、極めてスタンダードな状況で一定程度以上の合理性のある答えを示してくれるという点で、単なる答え合わせで使う用途に限ってる場合や、ポーカーを始めたばかりでそもそもどういうプレイをするのが標準的なのかが分かっていない方には、PokerSnowieの方が遥かに役に立ちます
詳しくはこちらの動画を御覧ください(宣伝)


まとめ

以上GTOについての初歩的な説明でしたが、いかがでしたでしょうか?
GTOは、初心者には敷居が極めて高いですが、ポーカーの高みに到達するには必須の概念であることは間違いありません。
いきなりPioSolverやGTO+を買って勉強を始めたものの、使い方が分からなくて挫折してそのまま使わなくなるのも、答え合わせにだけ使って終わっているのも、難しいから後回しにしているのも、いずれにしても勿体ないツールです。いつかは是非使ってみてください。

本稿が読者の皆さんのお役に立てたなら幸いです。
ここまで読んでいただきありがとうございました!

この記事が気に入ったらサポートをしてみませんか?