【翻訳】GTO Wizard AIについての説明【セオリー】GTOWブログ.76

2024年5月17日 17:55

こちらの記事はGTOWizardAIの説明的な記事で、使用されているGIFはnoteではアップ不可能なものが多かった為、以下にリンクされた本文をご覧になることをお勧めします。

普段の記事よりもスピード重視でアップしたため品質は劣るところがありますがご了承下さい。

世界最高・最速の人工知能ソルバーであるGTO Wizard AI（旧名：Ruse）を導入することで、これまでには考えられなかった勉強法をプレイヤーに提供することができます。

超人ポーカー

ここ10年の間に、新しいAI技術が登場し、コンピュータープログラムがヘッズアップ・ノーリミット・テキサスホールデム（HUNL）で人間のトップポーカープレイヤーに勝てるようになった。これらのプログラムは一流のプロを凌駕することはできても、一貫した信頼性の高いゲーム理論最適戦略（GTO）を生み出すには程遠いものでした。
GTOウィザードAIは、最大200ビッグブラインドのゲームにおいて、あらゆるベットサイズのバリエーションに対応した最適な戦略を、1ストリートあたり平均3秒で生成します。これまでに開発された最も強力な抽象化ベースのポーカーAIの一つであるSlumbotを150,000ハンド以上にわたって19.4BB/100で破り、その戦略的優位性を証明しています。GTOウィザードAIの技術的進歩を十分に理解するために、まず従来のポーカーソルバーがどのように動作するのかに飛び込んでみよう。

従来のソルバーの仕組み

PioSolverのような従来のポーカーソルバーは、Counterfactual Regret Minimization (CFR)と呼ばれる近似的な均衡探索アルゴリズムを使用します。CFRは、1回の反復を完了させるために、ゲーム中のすべてのハンドの組み合わせについて、可能なすべての決定点を探索する。このようなアルゴリズムが繰り返されるたびに、生成される戦略は、相手の戦略に関係なく、期待値で負けないことが保証されるナッシュ均衡に近づいていく。このプロセスは、一般に「解く」と呼ばれるものである。
フロップだけを解く場合でも、CFRはすべてのターンとリバーにわたって戦略を探索するため、初期のポーカーソフトの計算時間は伝統的に長かった。いくつかのベットサイジングの選択肢を考慮する場合、プリフロップからゲームを解くことは、このような手法では不可能である。通常、このような制約を回避するために、将来のストリートでのベットサイジングの数を減らしたり、似たようなハンドクラスをまとめてバケットに入れたり、プリフロップの解答にフロップのサブセットを使ったりして、ゲームを大幅に抽象化します。

AIによる現代的な適応

AIによる現代的な適応
GTO Wizard AIは、根本的に異なるアプローチでソリューションを計算します。ポーカーのシナリオに直面すると、ゲームツリー全体を通して推論するのではなく、一度に1つのストリートについてのみ考えます。これにより、新しい状況が発生するたびにそれを考慮し、信じられないほどの速さで解決することができます。
GTOウィザードAIは、ニューラルネットワークから学習した期待値を使用することで、将来のストリートの計算を不要にします。これらの値は、GTO Wizard AIの直感と考えることができます。つまり、どのような状況でもそのハンド自体の価値を理解するということです。

GTO Wizard AIのようなコンピューター・プログラムは、セルフ・プレイと呼ばれる技術によって自分自身を訓練することができる。ランダム・プレイから始まり、徐々に優れたバージョンの自分自身と何億ものハンドをプレイすることで、最終的には今日のような形に進化した。
セルフプレイの訓練により、GTOW AIは各ハンドの後に反実仮想推論を使用し、以前の決定を見直し、より高いリターンが期待できる行動を模索する。次に同じようなシナリオに遭遇したときには、より高い確率で期待値を最大化するような決断を下せるように準備されている。GTOウィザードAIは、学習過程で遭遇した非常に多様な状況のおかげで、様々なスタックの深さに対する最適な戦略を理解し、複数のスタックサイズのゲームを解くことができる一般的なアプローチのポーカーエンジンになりました。

頭脳を支えるチーム

Ruseの共同設立者であり、世界最大のAI研究所の1つであるMilaのAI研究者であるPhilippe BeardsellとMarc-Antoine Provostによって設立されたGTO WizardのAIチームは、不完全情報ゲームの領域における非常に複雑な課題の解決に専念する非常に優秀な人材で構成されています。ポーカーAIの科学的文献で達成された成果をさらに推し進め、チームの研究は不完全情報ゲームにおけるマルチエージェント強化学習に焦点を当てており、あらゆるポーカーのバリエーションやフォーマットを数秒で高い精度で解くことを目標としています。
GTOウィザードのAIチームは現在、以下の課題に取り組んでいます：

あらゆるレーキ形式のカスタム解決 (2023年12月更新 - カスタムレーキが利用可能になりました!)
あらゆるICM構造を解く
あらゆるPKOバウンティーの解決
プリフロップとポストフロップのマルチウェイ（3人以上）のカスタム解決
PLOのカスタム解決
ソルバーの出力を人間の言語に翻訳し、学習プロセスを簡素化します。
プレイヤーのレベルにより近く、学習しやすいアダプティブ・ソリューションの構築

これはGTO WizardのAIチームが取り組むエキサイティングな機能の概要を示すものですが、人工知能によって実現可能なブレークスルーのほんの一部を示すものに過ぎません。私たちは、世界最高のポーカートレーニングエコシステムを設計するために、科学者とエンジニアのオールスターチームを構築しています！
テクノロジーの限界に挑戦し、最先端の技術を駆使し、最先端の機械学習アルゴリズムのパワーを解き放つことに情熱を注げる方なら、私たちはあなたにぴったりです！
イノベーションと卓越性へのコミットメントを重視する当社のオールスターチームは、ポーカーAIの世界に革命を起こしています。私たちは、知識欲に駆られ、永続的なインパクトを与えたいと願う方とのコラボレーションを楽しみにしています。ご遠慮なく、hello(at)gtowizard(dot)comまでご連絡ください。すべての応募書類は慎重に審査され、考慮されますのでご安心ください。
一緒にポーカーの研究方法を変え、画期的な業績への道を切り開きましょう！

この記事が気に入ったらサポートをしてみませんか？