【翻訳】GTOは何を目指しているのか【セオリー】GTOWブログ.1

2023年12月6日 18:54

はじめに

ゲームセオリーオプティマル(GTO)という用語は、この10年間でポーカー界で大きな支持を得た概念である。GTOとは、エクスプロイトされる事のない固定戦略のことである。それはしばしばポーカーにおける”聖杯”と見做されている

では、GTO戦略とは一体何なのだろうか？何が "unexploitable "なのか？何を達成しようとしているのか？これを理解するには、まずナッシュ均衡の概念を理解する必要があります。

ナッシュ均衡の定義

ナッシュ均衡とは、どのプレイヤーも一方的に戦略を変更することで、より良い結果を得ることができない状態のことである。つまるところ、もしも各プレイヤーが自分の戦略を公表しても、どのプレイヤーも戦略を変更するインセンティブを得られないということを意味する。ナッシュ均衡は、経済学、ビジネス交渉、戦争、そしてポーカーのような有限非協力ゲームの多くに応用されている。

ポーカーにおける「GTO」とは、この均衡状態を指す。これは固定された、攻略不可能な戦略であり、調整する必要がない。ナッシュ均衡の自然な帰結として、GTOに対して最も強く、最も搾取的な戦略はGTOである。

この文脈での「戦略を公開する」とは、対戦相手が、あなたがどのようなスポットでどのように自分のレンジをどのようにプレイするかを知っていることを意味する。

注-「一方的に」という言葉は、マルチウェイゲームにおいて興味深い結果をもたらす。ナッシュ均衡は（他の戦略と同様に）、2人以上の対戦相手が同時にあなたに対して結託して戦略を変更した場合、エクスプロイトされる可能性がある。マルチウェイ均衡については後の記事で詳しく説明する。

固定された戦略とダイナミックな戦略

GTO戦略の主な利点のひとつは、それが固定的であること、つまり良いプレーをするためにあいまいで不正確な読みに頼る必要がないことだ。

「固定された戦略」とは、変化しない戦略のことである。固定された戦略は、異なるボードや異なるベットサイズに対して対応を変えることもあるが、常に同じスポットで同じようにレンジをプレーする。

一方、「動的戦略」は、いつでも調整し、変化させることができる。エクスプロイト戦略は、相手の欠点に合わせて調整するという点でダイナミックである。もちろん、そのためには相手のレンジを読み、自分の戦略を常に適応させる必要がある。

あなたがヘッズアップでプレーしているとしよう。あなたは「固定された」を選択し、それを貫かなければならない。あなたの戦略は公開されている。すなわち対戦相手は、あなたがどのようなボードで、どのようなベットサイズに対して、どのように自分のレンジをプレイするかを正確に知っている。「動的戦略」である相手は、あなたの戦略のどんな弱点も突いてくる。相手はあなたがいつオーバーブラフしているかを知っているし、あなたがいつバリューに偏りすぎているかもわかるだろう。あなたがトラップしすぎたり、チェックレンジがキャップされている事もわかるだろう。彼らは千里眼を持っている。

ここでの最適な戦略は、あらゆる対抗戦略から身を守るために、あらゆるリークを最小限に抑えることだ。バリューヘビーなニットにも、ブラファーのマニアックにも、同様に勝てる戦略が必要だ。GTOは、ダイナミックで千里眼を持つ相手に対して最強の固定戦略である。しかも、決して変化しないにもかかわらず、人間のどのレベルのプレーよりも強い。

GTO戦略はどのように計算されるのか？

GTO戦略は、ソルバーと呼ばれる強力なソフトウェアを使って計算される。ソルバーは単純に利益を最大化するアルゴリズムである。一方のプレーヤーに悪い戦略を取らせた場合、アルゴリズムはそのミスを利用するための最善の（最大限に搾取する）対抗戦略を見つける。

このような搾取的アルゴリズム同士を対戦させれば、最終的にはどちらも相手を搾取できない均衡を繰り返すことになる。

GTOに到達するレシピ

AとBの2人のプレイヤーが、完全にランダムな戦略を使っている状態から始める。
プレイヤーAの戦略を固定し、プレイヤーBにそれをエクスプロイトさせる。
今度はプレイヤーBの新しい戦略を固定し、プレイヤーAにそれをエクスプロイトさせる。
今度はプレイヤーAの新しい戦略を固定し、プレイヤーBにそれをエクスプロイトさせる。
これを均衡になるまで繰り返す。

他の遂行方法も存在するが、搾取的アルゴリズムを繰り返すというコンセプトは、すべてのソルバーの核心であることに注意。

均衡への進展はdEV（デルタ期待値）で測定され、「ナッシュ距離」と呼ばれることもある。「デルタ」とは、最も搾取的な戦略と現在の戦略との距離である。この数値が小さいほど、その解は搾取可能性が低く、均衡に近いことを意味する。

実際には、dEVが0になることはほとんどない。それは、均衡に近づくにつれて進展が難しくなるからである。GTOウィザードの解は、ポットの約0.2％から0.3％の精度で解かれるが、これは人間の精度をはるかに超えていると考えられている。

GTO戦略vs搾取的戦略

GTOと搾取プレーは両立する。GTOはバランスを取ることを目的とし、搾取的プレーはミスから利益を得ることを目的とする。

相手がどのように逸脱しているかを知らずに、相手を利用することはできない。相手が「アグレッシブすぎる」、「パッシブすぎる」、「バリューヘビー過ぎる」とは、何らかの共通の基準点なしに言うことはできない。何と比較してパッシブすぎるのか？GTOは基準となる視点を確立する。主観的な用語と客観的な真実を分離するのだ。デフォルトの戦略がどのようなものであるべきかを理解すれば、競合のミスをより正確に見極めることができる。

逆もまた真なり。搾取の基本原理を理解せずに、最も搾取されにくい戦略の背後にある根本的な理由を理解できるわけがない。均衡はもろい。GTOは、絶妙なエクスプロイトの可能性が完璧なバランスの上で成り立っている。一方のプレーヤーがパッシブ過ぎれば、もう一方のプレーヤーはトラップを止めることができる。一方がコールしすぎれば、もう一方はブラフを止めることができる。一方のプレイヤーがフォールドしすぎたら、もう一方のプレイヤーはオーバーブラフを始めることができる。この原則は、GTOソリューションの「理由」を理解する上で最も重要である。

どちらのスタイルも利益的である。GTOスタイルは、相手がGTO戦略では決して取るべきでない行動を取るたびに、（調整することなく）受動的に利益を得る。エクスプロイト型のプレーヤーは、ミスに乗じてGTO以上の利益を得る可能性があるが、逆にエクスプロイトされるリスクも負う。

GTOは何を目指しているのか

GTOの最終目標は、攻略不可能な戦略を生み出すことだ。レベリングウォー、メタゲーム、読み合いから解放されるように設計されている。可能な限り最高の対抗戦略に対して利益を最大化するように設計されている。ダイナミックで、調整的で、搾取的な対戦相手に対抗できる最強の固定戦略なのだ。要するに、GTOはバランスを取ることを目指しているのである。

この記事が気に入ったらサポートをしてみませんか？