見出し画像

GTOの誤解をぶっ壊す

 ポーカー界隈では、ここ数年でゲーム理論 (Game Theory Optimal, GTO)を用いた戦略が急速に進化、普及しています。先日のくまぽか会でも、ポーカー勉強中だという方と、GTOについて話すことがありました。

「だいたいは、オッズを考えながら、ABCポーカーでプレイしています。でも、GTOも勉強しないといけないとも思うんです」

 正直なところ、GTOはどのように学んでいくのが良いのか、僕にもよくわかりません。本や動画を参考にして、実際にソルバーを回しながら、手探りで地道に考察を続けるしかないように思います。

画像1

 しかし、よくよく話を聞くと、彼にはGTOについて多くの誤解があるようでした。実戦に応用する上で、根本的なところから理解を改める必要があると思いました。

 僕自身、GTOについて説明できるほど、十分に理解できているわけではありません。ただ、もっと早い段階で知っておけば、よりスムーズに学習を進められたと反省するポイントもありました。

 一緒に成長していく上で、不要な誤解は早い段階で解いておいてほしいと思っています。

画像2

 Run It Onceというポーカーの有名なトレーニングサイトがあります。

 そのフォーラムページでは、様々な投稿を元に有用な議論が行われています。「Low Stakes」「Most Pupular」で検索すると、最も「Good」の評価がついた記事が、GTOについて解説されたものでした。比較的古い記事ですが、今でも参考になると思います。

 今回はこの記事を翻訳してご紹介しようと思います。


GTOの誤解をぶっ壊す

2014年6月, posted by Michael Gazonda

 ハイ!

 ここ最近ずっと、ゲーム理論やGTOについて調べていて、理解しようと努力してる。みんな、GTOについて結構大きな誤解をしてるんじゃないかと思う。GTOが一体どのようなものなのか、そして、どのようなものでないのか、ここで少し明確にしようと思う。

画像3

 シンプルなポイントから始めよう。

 「ゲーム理論って一体なんだ?」

 当たり前だけど、これは単なるゲームのプレイ方法についての理論であって、そこに摩訶不思議なポイントなんて一つもない。ゲーム理論を理解するのに難しい数学的な知識も必要だけど、必ずしもそれが本質という訳ではない。

 じゃあ次に、「GTOって一体なんだ?」

 数学的な定義はいったん置いとくと、GTO戦略とは、絶対に相手に打ち負かされない方法でゲームをプレイすることが目的なんだろうか?

画像4

 答えノーだ。確かにGTOは相手に打ち負かされることがないけれど、決してそのようにプレイすることがGTO戦略の目的ではない。

 GTO戦略とは、意思決定が必要なすべての状況で、ベストな選択を行うことだ。

 僕もかつて、GTO戦略とエクスプロイト戦略は違うものだと思ってた。この2つのうち「どちらの方が優れているのか」ばかり考えていた。でも、僕は間違っていた。

 エクスプロイト戦略は、GTO戦略の一部だったんだ。

画像5

 ジャンケンを例に考えてみよう。このゲームにおける絶対に打ち負かされない戦略とは、グー・チョキ・パーの3つの選択肢をランダムに出すことだ。こうすれば、相手はこの戦略に対して長期的に勝ち越すことができなくなる。このように、GTO戦略とは、適切な選択肢をランダムに選んで出すということだ。

 ただし、ランダムに選択肢を出すことの問題点は、あなたは決して負けることはないけれど、決して「勝つ」こともないという点だ。

 さらに、ランダムに出しているつもりで、実はそれが偏ってしまっていたら、相手にエクスプロイットされる隙を与えてしまうことになる。この方法に従えば勝ちも負けもせず、この方法から逸脱してしまうと負ける可能性が出てきてしまうという訳だ。

スクリーンショット 2020-03-30 13.31.06

 「負けない戦略」と「勝てる戦略」には重要な違いがある。

 勝てる戦略は、相手の戦略の弱みを利用しているパターンを取っているにも関わらず、相手にとってはランダムに「みえる」のだ。

 GTOを学び始めた当初、ポーカーをプレイする方法は2つあると思っていた。相手に打ち負かされないGTO戦略と、相手を打ち負かすエクスプロイト戦略だ。でも、「真のGTO戦略」は、この両方を意味していたんだ。

 ポーカーは、相手の弱点を攻撃するゲームだし、相手に攻撃されないようにするゲームでもある。このような戦略を目標にすべきだし、この考え方を元にGTO戦略の構築を試みるべきなんだ。

 質問やコメントを楽しみに待ってるね!

スクリーンショット 2020-03-30 13.33.25

----------   以下追記 2013年6月6日   -----------

 興味深いコメントがあったから、上で言ったことに少し追記するよ。

 できる限り期待値(EV)を最大化するにはどうすれば良いですか?
 エクスプロイットされないようにプレイするにはどうすれば良いですか?

 GTO戦略はこれらの質問に対する答えでもある。だが、数学的な意味での「GTO」となる戦略は、実際には誰も具体的に示すことはできない。ちょっと難しいかもしれないけど、この理由を説明していく。

画像8

 まず、シンプルな部分から始めよう。

「ポーカーってどんなゲームだ?」

 なぜ数学的な最適解を出せないのかを理解する上で、これが重要な鍵となる。

 ポーカーではカードが配られて、ベットして、相手に勝とうとするよね。これだけでも膨大な数の場合分けが生じるけど、まだ有限であることは確かだ。でも、ポーカーの問題はそれだけじゃなくて、対戦相手が生きた人間であるという点にある。

 ベット・レイズ・フォールドの他にも、僕たちにはいろんな選択肢があるんだ。ゲーム中には、様々なゲームに関わる情報を受け取ったり、与えたりする。僕は早く動いたり、ゆっくり動いたりすることもあれば、話をすることもできるし、聞くことも、見ることもできるからね。

スクリーンショット 2020-03-30 13.39.04

 対戦相手が人間であることを考慮しない戦略は、潜在的に欠陥が存在する。数学的な証明が役に立たないだなんて、決して言わない。それは、人間が行うような活動を排除した状態しか示すことができないという限界があるということなんだ。

 この投稿を最初に書いたとき、エクスプロイト戦略はGTO戦略の一部だということが言いたかった。でも、今はちょっとスタンスを変えるよ。

 ゲーム中に相手が人間であること(情報を受け取ったり、与えたりすること)を考慮しない戦略は、GTO戦略とは言えないということを一番に伝えたい。これはポーカーに必要不可欠な要素だし、これがなければ、完全な最適解なんてありえない。

画像10

--------------------------------

 翻訳は以上です。

 たしかに、私達が目指しているのは、負けない戦略ではなく、勝てる戦略のはずですね。特に座学の際は、対戦相手がいることを忘れてしまいがちです。

 ただ、僕自信は、GTO戦略を学ぶ最初の頃は、GTO Solverの結果を完全に真似することから始めるのが良いんじゃないかと思っています。Preflop Rangeも、Snowie Preflop Advisorを徹底して模倣することをオススメします。まずは一番簡単なGTO Solverの使い方に慣れて、応用してみようという気持ちになった頃に、少しずつ変えてみるのはどうでしょうか?

 僕もGTOについて勉強中なので、このような便利なサイトを見て、一緒に成長できると嬉しいです。

この記事が気に入ったらサポートをしてみませんか?