Theory:Nash均衡とGTO

■1. Nash均衡の定義と性質(3人以上の場合)

まずはNash均衡の定義を確認しましょう。

(1) Nash均衡は戦略の組 (strategy profile)に対して定義される。したがって、「この戦略はNash均衡戦略である」というような表現は誤り
(2) Nash均衡は一般に、複数(無限個)存在する。
したがって「xxxはNash均衡である」という表現は適切であっても、
Nash均衡はxxxである」という表現は不適切な場合がある。
(3) nが3以上のとき、各P_kがNash均衡のひとつを知っており、それに従ってプレイしたとしても、全員の戦略の組がNash均衡になるとは限らない。

(3)がちょっとわかりにくいと思うので、(3人の場合に)形式的に書くと、

ということになります。プレイヤ全員がNash均衡解を学んでいて、それを完全な精度で再現しているという前提に立ったとしても、結果として必ずしも合理的な戦略対に至るとは言えないということです。したがって、3人以上のゲームにおいてNash均衡のことを「GTO(Game Theory Optimal)戦略」などと呼ぶのは用語の濫用で、誤解を招くものです。

学術的にも(ゲーム理論の分野でも)、3人以上のNash均衡が単に「最適解」「最適戦略」など呼ばれることはありません。

そもそも「最適解」の定義そのものが困難なんですよね。数あるNash均衡のうち望ましいものがどれかを判断するための指標が考えられたりすることもありますが、標準的な最適解の定義がなされるには至っていません。


■2. Nash均衡の定義と性質(2人零和)

3人以上の場合とは異なり、2人零和ゲームの場合にはNash均衡を与える戦略は良い性質を持ち、最適戦略(optimal strategy)と呼ばれます。pokerではゲーム理論最適戦略(Game Theory Optimal strategy)として、GTOという表現がよく使われます。

なお、零和というのは、奪い合いのゲーム(片方のプレイヤが得をするともう片方は損をする)というような性質です。以下の証明でも使われていますが、この記事ではさらっと流します。

(4) Nash均衡戦略の組に対して定義されるものであったが、GTOは戦略に対して定義されている

ということにも注意しておきましょう。これは、GTO戦略が(3人以上の場合と違って)十分良い性質を持つためです。そのことを確認していきましょう。まずはmin-max戦略を定義します。

このとき,次が成り立ちます.

(5) GTOであることとmin-max戦略であることは同値である

証明を与えておきますが,難しそうに見える人は読み飛ばしてOKです。

同じ証明から次の事実も得られます。(3)で3人以上のNash均衡について述べたことと対比的な結論であり、「戦略の組ではなく戦略のことをGTOと定義できる」根拠とも言える性質ですね。

(6) (s_1,s_2)がNash均衡であり、(t_1,t_2)がNash均衡であるならば、(t_1,s_2)もNash均衡である。

実際、t_1はmin-max戦略でもあるので、結論は上の証明の最後に証明されていますね。


■3.まとめ

・Nash均衡は戦略の組に対して定義されている。戦略に対して使うべき言葉ではない。

・GTOは戦略に対して定義されている。(「GTO戦略対と言わないといけないね」というようなものを見たことがあるけど、そうではない)。

・3人以上の場合にNash均衡であることをGTOと呼ぶのは用語の誤用。商売としては良いのかもしれませんが、学術的に見るととても賛成できない。

・3人以上の場合には、そもそも最適戦略を「定義する」ということ自体が非常に難しい問題。「3人以上だとGTOは計算できない」というのも誤った表現。Nash均衡のひとつを計算することであれば(pokerでどういう精度かは知りませんが)可能。

・例えば6-maxの「preflop solution A」「preflop solution B」があったときに、どちらの方が正解に近いのか、優れているかは、ある意味では「正解のない問題」(正解がわからない、ではなく)。計算精度などに大きな違いな差があれば優劣が断定できることもありえるかもしれませんが。
(より良いsolutionを購入し、さらに良いsolutionを探し求め…というような努力ばかりするくらいなら、ある程度で決め打ってpostflopの勉強をした方が良いんじゃないでしょうか)

・2人の場合にはその辺の問題は起きない。(ただし零和の場合に限った話であって、rakeが絡むと厳密にはGTOの自然な定義は困難)。

面白い記事だと思ったら少額でもサポートいただけると、記事執筆の大きな励みになります。