GTOとは何か-誤解と理解-

2022年5月16日 12:20

当記事はGTOという単語自体を知らない人。
単語は知っているがゲーム理論を勉強したことはない人。
単語もゲーム理論も知っているが、深い理解をしているとは思えない人。

へ向けて幅広く書いております。

まず、pokerというのは以下の特徴があるゲームです。

・プレイヤーは自身の利得(チップ)を最大化しようとしており、協力はしない
・(レーキなどのない場合)全プレイヤーの合計チップ量は1セクションを通じて変動せず、誰かが勝てば誰かが負ける、すなわち全員での期待値の和は0になっている。
・相手と自身の見ているハンドは異なり、持っている情報は非対称になっている。すなわち、一部の情報を共有していない不完全情報で戦うゲームである。

そして、このような性質をもつ「ゲーム」での戦略を数学的に考えていくのがゲーム理論と呼ばれる分野です。
ポーカーでは、このゲーム理論から"最適である"と考えられた戦略がコンピュータにより近似的に計算されており、この戦略をGTO(Game Theory Optimal)とよびます。

さて、今回は深入りして、前述の項目についてそれぞれをよく見ていきましょう。

まず1つ目。この性質はゲーム理論では
非協力ゲーム
と呼ばれます。
(通常の)ポーカーでは、Aさんからチップを取るためにAさん以外はカードの情報を共有しましょう！
とはならないわけで、麻雀などほとんどの場合の対戦型ゲームにおいてこの前提は成立しています。

次に2つ目、この性質はゲーム理論では
ゼロサムゲーム
と呼ばれます。
ここで期待値という単語が出てきました。これはポーカーではよくEV(Expected Value)と呼ばれます。期待値というのは、数式を用いずに説明すれば
「将来的に平均して貰えるはずのチップ量」
のことであり、現在のプレイをすることで、これがプラスである場合は+EV,そうでなければ-EVといいます。
さて、ここで我々の目標はなんでしょうか、
当然ですがEVをなるべく大きくすることが目標ですね。
では、どのような戦略を取った時にEVは最大になりますか？またその時のEVはいくつですか？

この答えはGTOを取った時にEVは0となります。
この仕組みを理解するために次の項目へ行きましょう。

さて、3つ目、この性質はゲーム理論では
不完全情報ゲーム
と呼ばれます。
将棋や囲碁では、相手の戦略は全てこちらに筒抜けであり、その戦略に対してこちらは戦略を練ることができます。
一方でポーカーでは、プリフロップ相手がopenした場合、そのハンドがAAなのか、あるいは27oなのか。そもそも27oはopenするのか？という戦略はわかりません。
ここで得られたのは相手がopenしたという情報のみです。このような不完全情報ゲームでは、相手がどのような戦略を取ってこようと自分のEVが＋になるよう(-にならないよう)に戦略を立てる必要があります。この点がpokerがメンタルゲームだと言われる所以かもしれません。

(ところで、不完備情報ゲームという単語もありまして、これは不完全情報ゲームと混同されがちです。ここでは割愛しますが、不完全情報ゲームという単語は、ゲーム自体の情報が不完全という意味ではないです。pokerというゲーム自体の情報、すなわちルールは全プレイヤーに等しく与えられています。)

さて、ここまでからpokerとは
非協力型ゼロサム不完全情報ゲーム
であるとわかりました。
このようなゲームにおける最適な戦略を考えるために、皆さんも子供の頃からよくやっている、非協力型ゼロサム不完全情報ゲームについて考えましょう。

じゃんけんです。

さて、じゃんけんが非協力型ゼロサム不完全情報ゲームであるかどうかを今一度確認してください。
かなりポーカーと似ている側面はありませんか？
ここで、より直感的に近づけるために以下のルールを設けます。

じゃんけんの勝者はチップ1枚を獲得し、敗者は1枚を失う。

じゃんけんにおいて、"最適な"すなわち、EVの高い戦術とはなんでしょうか？

多くの人は即答できるでしょう
グー:33%,チョキ:33%,パー33%
と均等に出すことですね？
以降これを戦略Sと呼びましょう。

なぜでしょうか。それは、均等に手を出さない場合には相手が上手な場合に負けるリスクを背負うからです。

例を挙げます
もし相手がドラえもんで、グーしか出さないとしましょう。
この場合のあなたの戦略は
パー:100%
となり、100%の確率でチップを1枚手に入れることができます。即ち、期待値はチップ1枚です。

ここまで極端でなくとも、Aさんは少しだけグーを出しやすく、
グー:40%, チョキ:30%, パー30%
とバランスが取れていないとしましょう。
彼に対しても、パーを100%出すことで、
40%で勝利→+0.4
30%で敗北→-0.3
30%であいこ→±0
となり、EV=+0.1です。
また、ジャンケンはゼロサムゲームですから、AさんのEVは符号を逆転した-0.1になります。

このように、ジャンケンにおいては全ての手を均等に出さない場合、高頻度に出す手に対して勝つ手を出し続けることでEVをプラスにできます。
これをpokerではexploit(搾取)とよびます。

一方で戦略Sはどうでしょうか？
戦略Sは相手のどのような戦略に対してもEVがマイナスになることはありませんね。
このように、2人のゼロサムゲームでは、相手の全ての戦略に対して期待値をマイナスにしない戦略が存在し、この戦略はpokerにおいてGTO戦略と呼ばれます。即ち、

GTO戦略とはexploitされない戦略

を言います。
素晴らしいですね。

ではGTO戦略を超える戦略はないのでしょうか？
そうとも限りません。
GTO戦略vsドラえもんを考えると、GTO戦略のEVは0になります。
先程のexploit戦略ではEVは1でしたから、exploit戦略の方が優れていますね。

このように、
相手の戦略がわかっている場合には、adjust(適応)したexploit戦略を用いる方が一般に期待値は高くなります。
ただし、exploit戦略(ここではパー100%)を用いていると、exploitに対するexploit(即ちチョキ100%)によってこちらはEVを失います。

(このようなメタゲームとしての側面(どちらの思考が上をいくのか)こそ、pokerの醍醐味ではないでしょうか？)

ところでGTO戦略はいくらのEVを保証してくれますか？これは当然ですが0になります。相手もGTOで有れば戦略が同じなので理論上どちらかが得をするというのはありません。

纏めると、

・GTO戦略はExploitされず、どのような戦略に対しても0以上のEVを保証する。
・相手の戦略がわかっており、それがGTOでないならば、exploit戦略を用いることでGTO以上のEVを生み出すことができる。
・同様に、自身がGTO以外の戦略を用いる場合、よりスキルの高い相手にはadjustされ、exploitされ返す可能性をのこす。

ということです。
exploit戦略の中でも特にEVの高いexploit戦略についてはMES(maximally exploitative strategy)とよびます。

ここで、よくある誤解に対して反論しておきましょう。

・GTOは保守的でExploitは攻撃的
→ExploitとはMESのことでしょう。GTOはGTOに対するMESであり、この理論はおかしいです。MESはExploitの余地を残すことから保守的ではないですが…

・GTOは相手に見破られやすくつけ込まれやすい。
→前半はともかく、つけ込まれやすいというのはexploitされることを指すのですか？GTOはexploitされません。
GTOだと見破られても良いのです。戦略相手に一切ばれないようにすることが目標ではありません。EVを高くすることが目標です。
相手に戦略がバレないようにする必要を残すのは、adjustできるレベルの人に対して、exploit戦略を使うとき、のみです。
相手がGTO戦略の場合こちらが取れる最善の手段はGTO戦略であり、無駄な戦略変更は相手にEVとexploitの余地を与えるだけです。

ここから先は

0字

¥ 390

期間限定 PayPay支払いすると抽選でお得に！

ログイン

この記事が気に入ったらサポートをしてみませんか？