見出し画像

ヘッズアップ ノーリミット ポーカーにおけるエキスパート レベルの人工知能


ヘッズアップ ノーリミット ポーカーにおけるエキスパート レベルの人工知能

リンク

けいれん| ユーチューブ| Twitter
ダウンロード & ビデオ| メディア連絡先

DeepStack は、チェッカー、チェス、囲碁などの完全情報ゲームの AI 技術と、ポーカーのような不完全情報ゲームの AI 技術の間のギャップを埋め、ディープ ラーニングによって磨かれた「直感」を使用してプレイしながら、意思決定ごとに戦略を再評価します。 .
2016 年 12 月に完了し、2017 年 3 月にScienceに掲載された研究により 、DeepStack はヘッズアップ ノーリミット テキサス ホールデム ポーカーでプロのポーカー プレーヤーを打ち負かすことができる最初の AI となりました。


ヘッズアップ ノーリミット ポーカーにおけるエキスパート レベルの人工知能

リンク

けいれん| ユーチューブ| Twitter
ダウンロード & ビデオ| メディア連絡先

DeepStack は、チェッカー、チェス、囲碁などの完全情報ゲームの AI 技術と、ポーカーのような不完全情報ゲームの AI 技術の間のギャップを埋め、ディープ ラーニングによって磨かれた「直感」を使用してプレイしながら、意思決定ごとに戦略を再評価します。 .
2016 年 12 月に完了し、2017 年 3 月にScienceに掲載された研究により 、DeepStack はヘッズアップ ノーリミット テキサス ホールデム ポーカーでプロのポーカー プレーヤーを打ち負かすことができる最初の AI となりました。


継続的な再解決

DeepStack は、残りのハンドについてのみゲームの現在の状態に基づいて戦略を計算し、ゲーム全体で戦略を維持しないため、全体的な悪用可能性が低くなります。

「直感的な」ローカル検索

DeepStack は、特定の深さを超える計算を高速近似推定に置き換えることで、残りのゲーム全体についての推論を回避します。ディープ ラーニングで自動的にトレーニングされた DeepStack の「直感」は、あらゆる状況であらゆるカードを保持することの価値を直感的に伝えます。

スパース先読みツリー

DeepStack はアクションの数を減らし、従来の人間の速度でプレイできるようにします。このシステムは、Nvidia GPU を搭載したシンプルなゲーミング ラップトップを使用して、5 秒以内にゲームを再解決します。


アルゴリズムについて

ヘッズアップ ノーリミット ホールデム ポーカーで人間のプロを凌駕した最初のコンピューター プログラム

2016 年 12 月に完了した 44,000 ハンドのポーカーを対象とした調査では、DeepStack は 11 人のプロのポーカー プレーヤーを打ち負かし、そのうち 1 人だけが統計的有意性の範囲外でした。プレイされたすべてのゲームで、DeepStack は 49 ビッグ ブラインド/100 (常にフォールドしても 75 bb/100 しか失うことはありません) を獲得し、0 から 4 標準偏差を超えて、ヘッズアップ ノーリミット テキサスでプロのポーカー プレイヤーを打ち負かした最初のコンピューター プログラムになりました。ホールデム ポーカー。

ゲームは真面目なビジネス

名前に惑わされないでください。不完全な情報の「ゲーム」は、意思決定者がどのように相互作用するかを説明する一般的な数学的モデルを提供します。AI 研究では、パーラー ゲームを使用してこれらのモデルを研究してきた長い歴史がありますが、主にチェッカー、チェス、囲碁などの完全情報ゲームに注目が集まっています。ポーカーは、不完全な情報の典型的なゲームであり、あなたと対戦相手がお互いに持っていない情報 (あなたのカード) を保持しています。
これまで、不完全情報ゲームにおける競争力のある AI アプローチは、通常、ゲーム全体について推論し、プレイ前に完全な戦略を作成していました。ただし、このアプローチをヘッズアップ ノーリミット テキサス ホールデム (宇宙の原子の数よりもはるかに多くのユニークな状況を持つゲーム) で実行可能にするには、多くの場合、ゲームの単純化された抽象化が必要です。

根本的に異なるアプローチ

DeepStack は、ヒューリスティック探索手法 (チェッカー、チェス、囲碁などのゲームで有名な成功例) を不完全情報ゲームに応用した、理論的に妥当な最初のアプリケーションです。
DeepStack の中心にあるのは、継続的な再解決です。これは、プレイ中に発生した状況のみを考慮する健全なローカル戦略計算です。これにより、DeepStack は事前に完全な戦略を計算することを回避し、明示的な抽象化の必要性を回避できます。
再解決中、DeepStack はゲームの残り全体について推論する必要はありません。これは、特定の深さを超える計算を、DeepStack の「直感」 (考えられるプライベート カードを保持することの価値の直観) で高速な近似推定に置き換えるためです。あらゆる可能なポーカー状況で。
最後に、DeepStack の直感は、人間の直感と同じようにトレーニングする必要があります。ランダムなポーカーの状況から生成された例を使用して、深層学習でトレーニングします。
DeepStack は理論的には健全であり、抽象化ベースの手法よりもはるかに悪用が難しい戦略を生成し、ヘッズアップ ノーリミット ポーカーでプロのポーカー プレーヤーを統計的有意性で打ち負かします。

https://www-deepstack-ai.translate.goog/?_x_tr_sl=en&_x_tr_tl=ja&_x_tr_hl=ja&_x_tr_pto=sc&_x_tr_hist=true



この記事が気に入ったらサポートをしてみませんか?