見出し画像

[翻訳] ノーリミットホールデム サクセスガイド - データドリブン戦略とマインドセット by Nick Howard

Nick Howard (Poker Detox創業者) による、一流を目指すポーカープレイヤー向けのガイド『No Limit Hold'em Success Guide』が面白かったので翻訳してみました。

Nick Howard (@nickhowardpoker)

Nick Howard率いるPoker Detoxは大量のハンド履歴データを分析した結果から得たエクスプロイト戦略である「データドリブン戦略」を提供しています。この無料で公開されているサクセスガイドでは、そのデータドリブン戦略の重要性と、それを実践するために必要なマインドセットについて書かれています。特にマインドセットに関しては非常に多くの学びがありましたので、今回翻訳してみました。

一部、要約、意訳、割愛してますので、フルバージョンが読みたい方はぜひPoker Detox 公式サイトへアクセスしてみて下さい。メールアドレスを登録すれば、無料で読めます。


1. 誰も口にしない真実: お金はどこから生まれるのか

Welcome! この「ノーリミットホールデム サクセスガイド」は、ポーカー業界最高レベルのデータ分析とパフォーマンス調査によって「どのようにポーカーではお金が生み出されるのか」を解明することを目的に書かれました。
私Nick Howardは、データドリブン(データに基づいた)ポーカートレーニングを提供するPoker Detoxの創業者です。
この3年間で我々のキャッシュチームとMTTチームは1000万ドル以上の利益を上げています。これは我々が契約しているプレイヤーの4000万ハンド以上のプレイの結果です。この結果を見れば、このガイドが業界内で最高のトレーニングを元にしており、読む時間を投資する価値があるものだとご理解頂けると思います。

 お金はどのように生まれるのか

おそらく、あなたはすでにGTOプレイが利益的であることをご存じでしょう。しかし重要なことは「ソルバーによるプレイと、実際の人間によるプレイを俯瞰的に比較すると違いがある」ということです。
私たちは数年に渡り、様々なプレイヤーの実際のプレイデータを分析することで、どのようにしてお金は生み出されるのかを導き出しました。

シンプルに言うと、
「お金はプレイヤーがミスを犯したときに生まれる」

もう少し具体的に言うと、
「お金はプレイヤーが相手より強いハンドをフォールドした時、または相手より弱いハンドでコールしたときに生まれる」

更に、別の言い方をしてみると、
「お金はプレイヤーがハンドの価値以上にチップを払いすぎた時、またはハンドのエクイティを実現しなさすぎたときに生まれる」

これがこのガイドの基礎となる格言です。

ポットオッズモデルの重要性

ノーリミットホールデムはポットオッズモデルの上に成り立っています。これがなければ、プレイヤーはナッツだけをプレイすることになり、退屈でスキルも不要なゲームになります。ポットオッズモデルによって、プレイヤーはベストハンドを持っていなくても、各ストリートで利益的な投資を行うことができるのです。
そして、ここにスキルが生まれます。様々なポットオッズのシチュエーションにおいて、自分のハンドが利益的な投資になるほど十分強いかを判断する必要が出てくるのです。

ここ数十年でソルバーは主流となり、ほぼ完璧 (near-perfect) なプレイというものを知ることができるようになりました。
そして、オンラインポーカーの何億ものハンド履歴の分析とソルバーによる戦略を比較した結論は「ソルバーは人間と比べて、よりハードにポットを争う」というものでした。全ストリートを通して、ほぼすべての勝ち組ポーカープロよりも、ソルバーのほうが高い割合でポットにお金を入れていたことがわかったのです。つまり「ソルバーのようにプレイするには、大抵の人々が望むよりも頻繁にポットを争わなければいけない」のです。

また、ビッグデータ分析によって一歩話を進めると次のことが言えます。 「相手がGTO戦略に沿ったプレイをしていないと統計的に証明できるスポットにおいて、我々は相手をエクスプロイトするべきである

Poker Detoxがここまで成長したのは、膨大なポーカーハンドのデータベース分析を専門家へ外注し、人々が準最適 (sub-optimally) にプレイしているスポットを特定してきたからです。
このデータに基づいた戦略(データドリブン戦略)を勉強して実践することは簡単ではありませんが、データに裏付けされた戦略を実践するほうが、そうでない戦略に比べて気持ちが楽になるはずです。うまく行っていない間も含めて。

2. データドリブン戦略とは

私たちのチームはGTO戦略とエクスプロイト戦略について議論する中であることに気づきました。それは「GTO戦略は複雑な混合戦略を大量に使用していて実践不可能なほど複雑なのに対し、エクスプロイト戦略ははるかにシンプルに実践できる」ということでした。
データドリブン戦略は、GTO戦略よりもシンプルかつ効果的なのです。

ソルバーというのは、2つの仮想プレイヤーを用いて、互いに最大限エクスプロイト的な戦略を繰り返し、これ以上エクスプロイト的な調整が残ってないところまで行うことで、解析結果に到達します。このようにして均衡状態に到達し、我々はこれをGTOと呼んでいます。
もし、仮想プレイヤーの片方を不均衡にすると、もう一方の仮想プレイヤーは相手を激しくエクスプロイトします。

その例を見ていきましょう。SBの3bet対BTNのオープンレイズのシナリオです。BTNのレンジをあえて「よくある不均衡なプレイ」として4bet頻度を低く設定してみます。

左は通常の均衡状態。右はBTNの4bet頻度が低い場合の均衡状態。

この設定下でソルバーにアジャストさせたところ、SBの3betレンジが非常にアグレッシブに広がっていることがわかります。
尚、どちらのSBの表も「最適」にプレイしています。なぜならば「最適なプレイ」の定義は「最も稼げる戦略」であるためです。

「最適な戦略」の本質は最大限にエクスプロイトすること。最大限のお金を勝ち取ることだけを目的としています。
データドリブン戦略を用いるということは、多くの人が不均衡にプレイするスポットを見つけ、そのスポットに対して統計的に証明された対応戦略を取ることです。そして、より強い相手に対しては、その対応戦略を控えめにしてバレないようにする、それだけです。

  • 新しいスポットを見つける。

  • 最適な対抗策を解析する。

  • 上手いプレイヤーに対しては対応策を控えめに。

データドリブン戦略とは、理論モデルを超えるパフォーマンスを出すための、統計的に証明されたエクスプロイトをする裏技なのです。

3. レッドラインの秘密

レッドライニング初級編へようこそ。レッドラインとは、結果を表すグラフにおけるノンショーダウン収支(non-showdown winnings)を表す線です。つまり、ショーダウンするより前に自分または相手がフォールドしたハンドの収支を表現しています。データドリブン戦略はエクスプロイト的な性質があることから、レッドラインが非常に高くなります。
ウィンレート全体を伸ばしながら、レッドラインを上げるには、主に2つの方法があります。

  • 相手がフォールドしすぎるスポットで、より多くブラフをする。

  • 相手がブラフしすぎるスポットで、より多くブラフキャッチをする。

ここで、データドリブン戦略の例として、2人のトッププレイヤー、LimitlessとStefanのヘッズアップの結果を表すグラフを見てみましょう。

Limitless vs Stefan
勝利したStefanの戦績

結果としては、Stefanが決定的に勝利し、ウィンレート(オールイン調整EV)は10bb/100となり、70万ドル近いの利益を上げました。
知らない人のために言うと、Stefanのプレイスタイルは残酷なまでにエクスプロイト的で、理論から逸脱しています。Stefanの正確な思考プロセスは私たちにはわかりませんが、明らかに中盤あたりから強烈にレッドラインが上がり始めています。この時からLimitlessに対して激しくエクスプロイトしていることがわかります。ちなみに、Limitlessも普段は非常にアグレッシブで、ここまで押されることは滅多になく、むしろエクスプロイトする側のプレイヤーです。
これが、レッドライン戦略をよりうまく調整できたプレイヤーが、世界最高のプレイヤーの一人を打ち負かした例です。

レッドライン戦略ほど対応が難しく、エッジが出せる戦略は他にありません。なぜなら、これがデータドリブン(データに基づいた)戦略だからです。

ここからが本当に面白いパートです。これからリアルなプレイヤーが間違った意思決定をしてしまう瞬間に何を考えているかを見ていきます。

4. マインドセット: アルファとベータ

過去10年間のポーカーコーチとしての経験を経て、最高のプレイヤーとその他のプレイヤーを分けるマインドセットを、「アルファとベータ」と表現をしています。
このアルファとベータのマインドセットは生物学的な根拠があり、パフォーマンスに関わる心理学を最も原始的なレベルで理解するのに役立ちます。
ここでは特に、そのプレイヤーのパフォーマンスの質とストレス許容度の関連性について深掘りをします。なお、 ストレスに対する反応は「闘争・逃走反応 (fight/flight response)」とも呼ばれています。

一般的に、支配的な上位ランクの動物をアルファ、服従的な下位ランクの動物をベータとカテゴリ分けします。
強いプレッシャーがかかる状況下で、アルファはクリアかつ決定的な方法で情報を解釈して反応することができます。一方、ベータは強いプレッシャーがかかるとより非効果的でより服従的になります。

ではポーカーの意思決定プロセスにおけるアルファ マインドセットとベータ マインドセットの主な違いは何でしょうか。
この2タイプの最も決定的な違いはリスク許容度 (risk tolerance) に根差していると考えられます。アルファは一般的にベータよりリスク許容度が高いです。
リスク許容度を高めるには、リスク許容度とは切っても切り離せない「損失回避 (loss aversion)」という認知バイアスを理解する必要があります。これは行動経済学の基本原則です。
損失回避とは、人は「失うことの痛み」のほうが「得ることの喜び」より2倍強く感じられる、というものです。
これのバイアスを無意識のレベルでも認識することができるようになれば、あなたのリスク許容度は改善し始めます。

ポットが大きくなるにつれて、クリアな思考ができなくなることを感じたことはないでしょうか。これがあなたのリスク許容度が試されている瞬間です。戦うか、逃げるか(闘争か、逃走か)。
幸いなことに、我々人間は内省することによって、ストレス反応を克服することができます。

ポーカーにおいても、高いリスク許容度があるアルファプレイヤーは、より簡単に、勝利へのエクスプロイト戦略を身につけることができます。その理由はアルファはベータと違い、服従することなく、闘争を望むからです。

リスク許容度はポーカーにおける決断にどう影響するか

では、ポーカーにおいて、ストレス反応が出ることで損失回避を引き起こし、意思決定に影響を及ぼす例を見てみましょう。

今、マージナルハンドを持っているプレイヤーが、相手のベットに直面しています。このプレイヤーは以下2つのどちらかのことを考えています。
「もっと良いスポットを待とう…」
「ここはコールすることもあるけど、今回はフォールドしよう…」
そしてフォールドするのです。この2つは実は同じことを言っており、これが最もよくある損失回避の例です。ベータの思考プロセスは無意識のうちに服従する(ポットを諦める)方へと進んでいくのです。

同じようなパターンはベータがベットかチェックかの意思決定をする際にも見られます。

「このスポットは相手側のレンジに強いハンドがたくさんあるので、ここではブラフできない…」
「理論上、時々ギブアップしていいはず。ブラフするのはまたの機会にしよう…」
「ここでは強いハンドは主張できない、ブラフしてもコールされるだろう…」
「さっき私のブラフを見たから、今回はコールしてくるだろう…」
「レイズされたら怖いから、今回はバリューベットはやめておこう…」

以上をまとめると「プレッシャーがかかった時、ベータマインドセットは常にリスク回避するように自分の中で合理化してしまう」とこういうことが言えます。

一方、アルファマインドセットは、安定した意思決定プロセスによって、損失回避に陥ることを避けることができます。プレッシャー下の意思決定において、アルファプレイヤーは意識的に考えることを減らし、はるかに精度の高い決断ができるのです。
つまり、「アルファプレイヤーはよりシンプルな思考プロセスによってより良いパフォーマンスを発揮する」のです。
※チェスプレイヤーであるJosh Waitzkinの著書 "The Art of Learning”においても同様のことが書かれています。

プレッシャーがかかる状況下で意志決定をする時、アルファプレイヤーは、安定的、科学的、落ち着いていられる。
ベータプレイヤーは、散漫になり、ゆがめられ、神経質になる。

例外として、リスク許容度はあるが、戦略的に未熟な人もいます。私は彼らをナイーブアルファと呼んでおり、一般的に彼らは学ぶ意思があれば、トレーニングは容易です(ただし、頑固だと決して成長しません)。

ここまでアルファとベータの主な違いについて触れましたが、もうひとつベータのよくある弱点あります。それは「多くのベータは、強いハンドを待つことでアグレッシブプレイヤーをエクスプロイトできると信じている」ということです。このタイプはアルファに捕食されます。
ベータが罠にはめてやろうと強い手を待ってる間に、アグレッシブなプレイヤーはノンショーダウン収支を稼ぎ、レッドラインを積み上げるのです。負け続けた分を取り戻せるほどベータに強い手は配られないのですが、それでもベータの多くは自分がエクスプロイトされていることに気づいていないのです。

5. トランスフォーメーション/変革

 ここまで4つの章で、データドリブン戦略がどのように機能するのか、その全体像を理解して頂きました。

ここで、重要な事実があります。
より大きなリスクを取る戦略的なアップグレードは、同時にそれを実践することによる恐怖に立ち向かわなければいけない。

新しいエクスプロイト手段を発見することと、それを心理的に受け入れることは別物です。そのアップグレードした戦略を実践する時に、心理的な迷いがないようにしなければいけません。

プレイ中に感じるストレスは以下のどれかで説明ができます。

  1. 意思決定プロセスが不安定

  2. 自分のバンクロールに対してプレイするレートが高すぎる

  3. 分散や時間との不健全な関係性

順に説明していきましょう。

1. 安定した意思決定プロセス

前の章でベータが損失回避によってマインドセットが崩壊しているのに対して、アルファは安定した意思決定プロセスがあることを説明しました。
もう一つ付け加えると「アルファが落ち着いていられる大きな理由は、アルファは強い信念を持っているから」です。彼らは実証された戦略的なフレームワークを用いていることを理解しているために、脳内が自然とリラックスするのです。

そして、データドリブン戦略を用いることも意思決定の安定性を向上させるロジカルな方法です。技術的な信頼度が高いため、より明確で、よりリラックスしながら意思決定することを助けてくれます。

2. 自分のバンクロールに合ったレートでプレイ

もっともシンプルなストレス解消法は、より余裕をもったバンクロール管理を行うことです。特に新しい戦略を覚える初期段階においてはステークスを下げることは非常に理にかなっています。
その人に合った正しいバンクロール管理の戦略は、以下3つの要素の組み合わせで決まります。

  1. あなたのリスク許容度

  2. あなたの貯蓄

  3. あなたの支出

例えば、住宅ローンと家族を持つ臆病なプレイヤーが、何も失うものがない20代のプレイヤーと同じバンクロール戦略で良いはずがありません。
3つの要素を踏まえてあなたのプランを調整しましょう。もしあなたにとってプレッシャーが大きすぎるのであれば、ステークスを下げましょう。

3. 分散や時間との協力的な関係を築く

私が一番好きなトピックです。多くのプレイヤーはプレイをよりアグレッシブにすると、分散が激しくなるようと思っています。このアジャストは短期的には不安に感じるでしょうけど、長期的に見ると実際にはリスクが高いアプローチというわけではありません。

データドリブン戦略に切り替えるとき、あなたのウィンレートは標準偏差とともに上昇します。
ウィンレートと標準偏差が上昇すると、分散は相殺されます。
ボラティリティ(変動性)が大きくなると標準偏差は大きくなり、短期的には結果の振れ幅は大きくなります。しかし、ウィンレートも一緒に上昇しているため、長期的には分散に対する影響は最小限なのです。
事実、古い戦略からデータドリブン戦略に切り替えてウィンレートが大きく上昇したことで、長期的な分散が小さくなることは珍しくないのです。

背景にある科学的根拠を理解することで、長期で見た時のデータドリブン戦略の安全性を理解でき、安心して実践できます。心的ストレスを緩和することが、よりクリアな意思決定とリスク許容度の向上に繋がります。
一方、根拠がないと、分散から逃げようとして、破壊的な修正をしてしまう可能性がはるかに高まります。おそらく誰でも経験したことがあると思いますが、損失を取り戻そうとして余計にダウンスイングが大きくなってしまうのです。

統計的に実証された戦略にコミットするのであれば、あなたがやることはただ、分散が収束するまで実践し続けることです。
分散の収束に時間がかかるという事実から逃れようとすることはポーカーにおける最大の落とし穴のひとつです。ポーカーは他のあらゆるスキルゲームと比べて結果が返ってくるまで時間がかかるゲームなのです。このようなゲームではデータがあなたの正気を維持してくれます。

さて、分散が悪い方向に広がってしまった時に我々にできること、それは「分散との関係性をコントロールすること」です。これはすなわち「時間との関係性をコントロールすること」を表します。あなたが大数の法則を理解していれば、「長期において、運の要素は結果に対してほとんど関係がない」という事実を信じられるはずです。

「時間と良い関係性」を築く方法、それは「時間を新たなエッジとして組み入れることで、時間を味方につける」ことです。

多くのプレイヤーは時間のことを障壁とみなして、受け入れられないために、このようなことが起こります。

  1. 戦略を調整する方法を必死に探し、正しいやり方を間違ったやり方に変えてしまう。

  2. より服従的でリスクを回避する行動を取ってしまう。そして時々、猛烈にティルトする。

  3. あまりに圧倒され、文字通りポーカーがプレイできなくなる。

このようなプレイヤーの自己破壊的な行動を見れば、「時間との関係性の改善」があなたにとってのエッジになることがわかるはずです。

まとめ:健全で強力なポーカーキャリアを構築するための3つのマインドセット

  1. 安定したデータドリブンな意思決定プロセス

  2. しっかりしたバンクロール管理

  3. 時間との協力的な関係性

この3つの原則を順守し、ポーカープレイヤーとしての収益力を変革しましょう。

6. ハイステークスへの道(まとめ)

ここまででこれらのキーコンセプトを理解できたでしょう。

  • データドリブン戦略はどのように設計されているか

  • これによって生み出されるプレイスタイル

  • これがなぜそこまで効果的なのか(最高レベルのポーカーにおいても)

  • あなたのリスク許容度を高めるマインドセットの変化

  • 分散と時間が長期的なエッジへの資産としてどのように機能するか

Poker Detoxを設立したとき、私は専門家の力を借りて、データ分析をすることでデータドリブン戦略を作り上げました。
幸い私はデータ専門家の助けを得られるだけの資金がありましたが、もしなかったらどうなっていたでしょう。私は今まで多くのプレイヤーが自力で(自己流で)戦略を作ろうとして失敗したり、間違った戦略でプレイしているのを見てきました。
このような経験から、私はPoker Detoxにおいてコーチング・フォー・プロフィット(CFP)部門を作り、トレーニングプログラムやコミュニティを立ち上げました。
このガイドが役に立ったと思ったら、ぜひPoker Detox 30日間トレーニングキャンプをご検討ください。もしあなたがすでに勝ち組プレイヤーでCFPチームに参加したいと思ったら、ぜひ応募してください。お読み頂いてありがとうございました。


翻訳は以上です。読んで頂いてありがとうございました!ぜひスキ・フォロー・拡散・投げ銭で応援して頂けると嬉しいです!

※以下の有料部分には何も書かれておりません。

ここから先は

14字 / 1画像

¥ 300

スキ・拡散・サポートで応援して頂けるととても助かります。サポートは100円でもいいです。先に言っておきますが、ありがとうございます。