じゃんけんグリコで考えるマルチウェイでのGTO

2020年12月17日 21:00

１．はじめに

自分はポーカーで生計を立てているプロギャンブラーであるが、プロとしてやっていける素養を測る目安の一つとして、「じゃんけんが強いこと」というものがある。

そう、強いポーカープレイヤーはたいてい、生涯のじゃんけん勝負を勝ち越しているものだ。

これは運気のようなオカルトの話ではない。理論的にはグーチョキパーを3分の1づつ出せば勝敗は運のみに左右されるはずだが、現実の勝負では人はそれぞれ少なくない偏りを持っている。その現実を正しく把握し打ち負かすという資質は、ポーカーで勝つためにも本質的に重要なのである。

ところでじゃんけんグリコをご存じだろうか。グーで勝てばグ・リ・コで３歩進み、チョキで勝てば５歩、パーで勝てば６歩というゲームだ。

（チョキはチ・ヨ・コ・レ・イ・トの6歩であるのがメジャールールであろうが、ここではゲーム性がより高くなる5歩で話を進める。チョ・コ・レ・イ・ト！）

通常のじゃんけんよりも複雑なこのゲームで勝つためには、相手に対する読みに加えて、少々の数学的センスが必要になってくる。その戦略を構築する過程はポーカーのそれと驚くほど似通っている。

本note記事ではじゃんけんグリコの戦略を掘り下げることで、ポーカーの戦略を構築するためのヒントを得ていきたい。

２．猫も杓子もGTO

ポーカー業界において、大流行している言葉がある。

GTO（Game Theory Optimal）である。そのままジーティーオーと読む。

ゲーム理論の用語でOptimal Strategy（邦訳は最適戦略）というものがあり、これは相手がどんな戦略を取ってもこちらを打ち負かすことが出来ない、という性質を持った戦略のことをいう。ポーカー業界でGTOはこのOptimal Strategyとほぼ同義で使われている。

（個人的にはGTOという呼称はスマートではないと思う。GTの部分にはほぼ情報量が無いし、戦略そのものを指すのか戦略の持つ性質を指すのか不明瞭な場合が多々あるからである。そのため本note記事ではGTOではなくOptimal Strategyという呼称を使用する）

ポーカーにおけるOptimal Strategyは、単純な局面であれば手計算で算出できる。ポット$100に対してリバーで$100ベットするとして、Optimal Strategyとなるブラフ頻度はどれだけか？などだ。答えは33%である。

しかしポーカーはそれなりに複雑なゲームであり、多くの実際の局面では精度高くOptimal Strategyを求めるのはこれまで事実上不可能だった。そこへ昨今登場したのがPiosolverに代表されるsolver（つまりコンピューターシミュレーション）である。

solverは今話題のAIとは異なり、あくまでも計算機だ。シミュレーションであるため解析解ではなく数値解ではあるが、ある程度の時間を掛ければかなり高い精度でのOptimal Strategyが得られるようになった。

（もちろんポーカー界にもAIの波は押し寄せており、こちらもPokersnowieを筆頭に進化を続けている）

しかしながらsolverはその仕様として、ヘッズアップ（１対１勝負を意味するポーカー用語）の時にしか適用できない。複数プレイヤーにおけるOptimal Strategyは定義をする段階からして非常に難しいのだ。

そこで、ポーカーと比べてシンプルなゲームであるじゃんけんグリコを用いて、複数プレイヤーでのOptimal Strategyの振る舞いを見ていこう。

３．ヘッズアップじゃんけんグリコ

じゃんけんグリコ　ルール：
　グーで勝ち　　３歩
　チョキで勝ち　５歩
　パーで勝ち　　６歩
・特にゴールは定めず、単に獲得歩数を競うゲームとする
　（ゴールがあるとゴール直前の戦略が複雑になる）

まず、1対1でのじゃんけんグリコのOptimal Strategyを考える。

これは高校数学の範疇で十分に可能だ。GTOをいくぶんでも学んだ人にとってはさほど難しくないだろう。できない？そんなやつはPiosolverの丸暗記でもしとけ！

計算式

このように、ヘッズアップじゃんけんグリコにおけるOptimal Strategyは、獲得歩数をスライドさせたような割合になってることがわかる。

ここで得られた戦略（グー , チョキ , パー） = （5/14 , 6/14 , 3/14）を、「HU Optimal」と呼ぶことにしよう。

４．３人でのじゃんけんグリコ

さて、ここからが本番である。じゃんけんグリコを3人で行うことを考えてみよう。「HU Optimal」は3人の時にも通用するのだろうか。

3人じゃんけんグリコ　ルールと前提：
　グーで勝ち　　３歩
　チョキで勝ち　５歩
　パーで勝ち　　６歩
・勝者の数によらず、勝者はヘッズアップと同じ歩数を獲得する
・プレイヤー間の順位は問わず、単に獲得歩数を競うゲームとする
・相手A、相手Bは「HU Optimal」を採用

３人のじゃんけんでは、3の3乗で27通りの出し手がある。以下の表はその中でhero（プレイヤーとしての自分自身を指すポーカー用語）が「グー」を出した際に生じる結果についてまとめたものである。表の見やすさの都合上、196回勝負（14の2乗）の結果としてある。

じゃんけんグリコグー

これと同じように自分が「チョキ」、「パー」の時の結果も計算し、それぞれ勝負一回あたりの獲得歩数に換算したものが以下の表である。

1回あたりまとめ

自分も「HU Optimal」を採用した場合、全員の獲得歩数期待値は1.38歩で等しくなる。同じルールで同じ戦略を取っているのだから当然である。

ところが、二人の「HU Optimal」に対して自分は「グー」を出した場合、なんと相手よりも大きな歩数期待値を獲得することができるのだ！

これはつまり、全員が「HU Optimal」を取っている状態から、heroは戦略を変更することで利益を得られてしまう。すなわち、全員「HU Optimal」はナッシュ均衡「ではない」ということを意味する。

なお、獲得歩数期待値が一番大きくなるのは「パー」を出した時であるが、相手はそれ以上の歩数を獲得してしまう。勝負として重要なのは相手との歩数差であるため、「パー」は不利と言える。

また、今回の計算では「チョキ」と「パー」による平均との差が-0.102歩で同じ値となっているが、そこが同じになる必然性はない。単にこれはルール設定上の偶然である。

この計算結果は、感覚的にいまいちピンとこないかもしれない。そこでもう少し直感的に分かりやすくするため、新ルールとして「パー」で勝った時の歩数を100歩にした場合を考えてみよう。

５．じゃんけんグリコ　3-5-100ルール

じゃんけんグリコ　3-5-100ルール：
　グーで勝ち　　３歩
　チョキで勝ち　５歩
　パーで勝ち　　100歩

この場合の「新HU Optimal」は（5/108 , 100/108 , 3/108）となる。108があたかも煩悩の数のようで良い感じだ。

さて、このルールで「新HU Optimal」を取る二人相手に勝負をするとどうなるだろうか。

1回あたりまとめ新ルール

「グー」が圧倒的に有利、「パー」が圧倒的に不利な結果となった。このように極端なパラメーター設定を行うことで、解釈がかなり容易くなる。実際に「グー」を出した時のことを考えてみよう。

相手の手は100/108、すなわちほとんどが「チョキ」である。たいていの場合、自分の「グー」で勝利を拾い3歩を獲得する。代償として「パー」に100歩を与えるリスクを背負うわけだが、一人が「パー」を出してももう一人はほとんどが「チョキ」。つまり結果はあいこで助かるのだ。相手二人が同時に「チョキ」を外さなければリスクが現実とならないのである。

確率論において二つの事象が同時に起こる確率はそれぞれの確率の積で表される。そのため、今回のケースでは相手に「パー」の100歩を与える確率が非常に低くなるという構造になり、「グー」の圧倒的有利が成立しているのだ。

６．取って取られて取り返されて

話をもとのルールに戻そう。

こちらが実際に「100%グー戦略」を取った場合どうなるだろうか。相手Aとしては一回あたり0.184歩の差をつけられていくのだ。面白いはずがない。GTO信者であればそれでも負けていくことに気付かず、永遠に「HU Optimal」を続けてくれるかもしれないが、実際の勝負の世界はそんなに甘くはない。相手は生きた人間であり、すぐに対応してくるだろう。

自分の「100%グー戦略」に対する相手Aのカウンター戦略は明快である。「100%パー戦略」だ。これについては計算証明の必要もなかろう。もう一人のプレイヤーである相手Bがどんな戦略を取ろうとも、これで負けることはあり得ない。「100%グー戦略」の勝率はまさかの0%となり、一歩も獲得できずその場に立ち尽くすことになるのだ。

「100%グー戦略」のような極端な戦略ではすぐに対応されてしまうことが分かった。では次は、heroが「HU Optimal」に対してわずかに「グー」の割合を上げた時を考えてみよう。

相手Aの取るべき戦略は何だろうか。少し考えてみて欲しい。

カウンターとして「パー」の割合をわずかに上げる、という戦略に思い至る人は少なくないかもしれない。しかしここではより期待値の高い戦略がある。正解は「100%グー戦略」を取る、である。

相手Aの取るべき戦略には二つの方向性がある。一つは「パー」の割合を上げてheroにカウンターする戦略。もう一つは「グー」の割合を上げて「HU Optimal」に対するエッジを取りに行く戦略だ。

heroの「グー」増加割合がわずかだった場合、それをカウンターして得られる利益もまたわずかである。それよりもベースにある「HU Optimal」の弱点を突く方が大きな利益を得られるのだ。

７．３人でのOptimal Strategyは存在するのか

「HU Optimal」は簡単にやられて（ゲーム理論風に言えばExploitされて）しまうことが分かったが、果たしてこの3人じゃんけんグリコにOptimal Strategyは存在するのだろうか。言い換えれば、相手がどんな戦略を取っても損しない戦略というのは存在するのだろうか。

これは難しい問いだ。正直今の自分には分からない。（自分に分からないだけなので、ゲーム理論に詳しい人なら理解しているのかもしれない。あるいは分からないということが理解されているのかもしれない）

間違う可能性は承知で敢えて自分の予想を書いておこう。どうせ世の中分からないことがほとんどなのだ。

おそらく単独プレイヤーの固定された戦略としてOptimal Strategyは存在しない。自分が戦略を固定した後にその戦略を知っている二人が最適解を探る場合、じゃんけん3すくみの関係により攻略の余地が出てしまうのではないか、という気がする。

ただ、相手二人を固定した形のナッシュ均衡は存在する気がする（これも自信はないが）。即ち相手A相手Bを合わせて固定するストラテジーセットを考えた場合、heroがそれを打ち破れない（exploitできない）という状況だ。

（これは3人じゃんけんグリコで連立方程式を解くなりシミュレーションかけるなりで検証できそうな気がするが、そこまでモチベーションは上がらなかった・・・）

おそらく、とか気がする、とかひどく内容の薄い章になってしまったが仕方がない。誰かわかる人がいれば教えてください。

ちなみに、3人でも通常のじゃんけんであれば、（1/3 , 1/3 , 1/3）が単独プレイヤーでOptimal Strategyとなる。証明はさほど難しくないのでここでは省くが、仮に相手A相手Bが共謀してお互い次に出す手を把握していたとしても、このOptimal Strategyを打ち破ることはできない。

このことから、ゲームによっては単独Optimal Strategyは存在することもあることが分かる。

８．まとめ

これまでの考察をまとめよう。

・ヘッズアップじゃんけんグリコにおけるOptimal Strategyは、獲得歩数をスライドさせた割合での混合戦略になる。

・3人じゃんけんグリコにおいて「HU Optimal」を取ってもそれはOptimalとならず、100%「グー」戦略に対して不利となる

・じゃんけんグリコのようなシンプルなゲームでも、3人勝負におけるOptimal Strategyを求めるのは難しい（可能なのかどうかも良く分からない）

じゃんけんグリコより遥かに複雑なポーカーにおいて、マルチウェイでのoptimal Strategyを得るのが至難である理由がなんとなく想像いただけただろうか。

もちろん、シミュレーションを行う際の条件設定の工夫によって、3人の時でもよりexploitされにくい戦略を模索することは可能である。（実際、Preflop Solutionはなんらかのロジック設定はあると考えられるものの、複数プレイヤーを相手にしてのOptimal Strategyを求めた結果ではある）

しかしながらマルチウェイでの戦略は、単に計算が複雑という以上の難しさを孕んでいることは、ポーカーの研究を行う際には頭に置いておいておくべきことだろう。

最後に、自分のGTOに対するスタンスを示しておこう。

ポーカー戦略を構築するにあたり、全くのゼロから組み上げるということはほとんど無い。多くの場合、何か骨格となるStrategyをベースとして用意し、真似し、さらに試行錯誤で磨き上げていくのだ。

骨格のオリジナルは、身近な強いプレイヤーかもしれない。それともフィルゴードンの本だろうか。ハイステークスポーカーを真似した人もいただろうし、溢れかえるポーカー動画だという人も多いだろう。

そして今、流行最先端の骨格が、piosolverなどによるGTOなのである。もっともほとんどのプレイヤーにとって、GTOの本質的性質は意味を持たない。重要なのは、それを真似ればどうやら勝てるらしい、という事実（あるいは評判）なのである。

一方で、GTOを学ぶことは非常に有意義である。ポーカーの本質を理解することに繋がるし、レベルの高いフィールドで戦うためには高い精度で戦略を磨き上げなければならず、今やsolver無しでは難しいといえるだろう。

とはいえ、好きか嫌いかはまた別の話である。

自分は、GTOが嫌いだ。

特にGTOをプレイ中にそのまま再現しようという、GTO完コピ思想は大嫌いである。

GTOはその性質により絶対に負けないことを保証してくれるが、これは同時にベストな戦略「ではない」ことも保証することになる。

ポーカーは人対人のゲームであり、お互い相手を思考で上回ろうとする熱い闘いだ。これは本当に楽しい、素晴らしいゲームである。正解が分からなくても、相手に合わせて自分がより正しいと思える判断を追い求めるのがポーカーの醍醐味だ。

GTO完コピはこの醍醐味を放棄することに他ならない。彼にとって相手は誰だろうと知ったことではない。やることは変わらず、考えることも何もないのだ。

では完全なGTO戦略を取ってくる相手にどうすればいいのか？自分も対抗してGTO戦略を取るような愚かな真似はしてはいけない。席を立ってバカラに行こう。僕らの愛するポーカーは、もはや単なる完全指運ゲームに成り下がってしまったのだ。

このGTOの大流行には、人間の心の弱さが大きな一役を買っている。中世ヨーロッパでは免罪符が発行されたのをご存じだろうか。持っていればそれだけで罪が許されるという紙である。ポーカー戦略における罪とはなんだろうか。判断を間違い、相手を利してしまうことである。

GTOはその性格上、どんな戦略が相手でも絶対に負けない。相手を利する判断を行うことがないのだ。そう、GTOに従い判断の呪縛から逃れれば、判断ミスという罪から永遠に解放されるのだ。

GTOにしがみついた哀れなプレイヤーを見たら、どうか慈悲の心であたって欲しい。彼らは弱さ故、ただ免罪符を必要としているだけなのだ。

了