まだ天鳳の段位で消耗してるの? (1)

前回からのつづき。

練習問題の解答

簡単な練習問題を作ったのに解答が来ないのは寂しい。

次のような数値例 (N, U, V) を見つけよ:
P(p, n, m, n') を「十段からは確率p で n試合で天鳳位昇段、確率1-p で m試合で九段降段する。九段からは確率1 で n'試合で十段昇段する」ときの「ストレートに天鳳位になれる確率」とする。Q(p, n, m, n'; N) を同じ条件での「N試合以内に天鳳位になれる確率」とする。このとき「P(U) < P(V) かつ Q(U; N) > Q(V; N)」が成り立つ。

P は p そのものだから、大きくするには p のみを大きくすればよい。Q を大きくするには p も大きいに越したことはないが、N に対して n, m, n' を小さくとればよい。たとえば U = (0.5, 1, 1, 1), V = (1.0, 100, *, 100), N = 50 が条件をみたす。前者は天鳳位昇段確率は低いが降段からの復帰が速く多数の試行をこなせる一方、後者は確実に天鳳位にはなれるものの間に合わない。もちろん、この数値例自体は現実的なものではない。

ギャップの埋め方

さて、各段位における昇段確率のみを目的関数とすると、昇段や天鳳位までの経過が考慮されないギャップが生じることを指摘した。その埋め方にはいくつかの場合が考えられる。つまり、試合数を固定する場合と試合数は無視する場合とである。

試合数を固定する場合

こちらは試合数を固定し天鳳位への昇段率を目的関数とすることになる。練習問題で扱ったのは段位が九段から天鳳位までしか存在しない場合の例であるが、解答となる数値例も含め、より現実的な「各段位からの昇段確率の優劣と固定試合数での天鳳位昇段率とが逆転する」例があるかどうか考えたい。もしなければそれを証明するべきだが、あるなら例を示すためには探索が有力だろう。

先行研究として、たとえば新人から10000ゲーム (サンプルサイズ不明), 同100000000ゲーム10000人, 七段原点から5000ゲーム10000人のサンプルに関するシミュレーションの結果が公開されている。

これらでは卓を固定すると順位分布も安定段位や平均順位に従属して決まることになっている。現在段位に応じて戦略を変更し順位分布が変わる場合を扱うように拡張することが次のステップとなるが、次の点が課題である。

微妙な差を明らかにすること: 明らかにするべき差が小さいとき、シミュレーションではその2乗に反比例する程度の時間がかかる。これは行列冪による数値計算で代替することができる。

現在段位に応じた順位分布変化として妥当な範囲: たとえば七段で [1/4, 1/4, 1/4, 1/4] のプレイヤーは八段でどのように (ラス回避へ向けて) 順位分布を変化させられるだろうか。段位効率や特定段位におけるポイント期待値という点での「実力」を固定する方法は考えられるが、このレベルの解析のための前提として妥当だろうか。より厳密に考えると「自分の段位に応じて (自分の最適戦略が変わるため、さらにその想定に応じて) 相手が戦略を変化させることによる影響」なども生じてくる (余談: ふつう、ゲームは1試合のうちでの目的関数を全プレイヤーが共有するが、段位制度はその前提を覆してしまううえ、ゲーム結果として表示される収支・ポイントによって変動する段位と順位に対して線型なレーティングのような指標が乱立するとサイト全体で人によって目的が異なり、研究の障害となってしまう。研究を考えなければ多様性が利益になることも多いので全否定はできないが)。

試合数は無視する場合

試合数を無視するとき、天鳳位への到達を評価基準とすることは、やはり現実的でない。試合数を任意に大きくとることができるなら、正のポイントを得る確率が 0 より大きいプレイヤーは誰しも (私も、あなたも)、十分に高い確率で天鳳位になれるからだ (みーにんさんのシミュレーションによれば実力七段が5000万試合で95%)。

そこで、試合数を無視する場合は段位に関する目的関数として、次のようなものが自然に考えられる:

長期的在位段位: 段位ポイント得失を 十段より上・チャオ以下 へ拡張して無限試合プレイするとき、任意の時点における在位段位 (所持ポイントによる補正をしたものでもよい) の確率分布、またはその平均

ここには各段位における昇降段確率だけでなく、その在位期間が関係する。ペクレ数を使った考察によれば、段位ポイント期待値のみによる選択に比べ、昇段確率を基準とする選択は、じゃっかん「実力より下の段位にいるときは安定するほう、上の段位にいるときはブレるほうを選ぶべき」とされた。一方、在位段位の確率分布を目的関数とするときは「低い段位には短く、高い段位には長くとどまるべき」という観点も生じる。前者は段位ポイントの分散が大きいときに、後者は小さいときに達成されるので、これによるとペクレ数によるのと逆の選択が高く評価される。したがって、これらの関係は自明ではない。つまり、練習問題ではない問題として次のようなものが考えられる。

各段位における順位分布の組 A, B であって「ペクレ数では一方が、長期的な在位段位の点では他方が優る」ものがあるか。

こちらも反例探索のアプローチや課題は試合数を固定する場合と同じになる。ここでは段位効率や段位ポイント期待値に沿って打つのが (ペクレ数よりも) 良い (場合が存在する) と示せそうな気がする、が、まだ示せていない。

ここまで

天鳳の段位評価において「昇段確率の最大化のみ」を目的関数とすると昇降段の経過が考慮されないギャップが生じることを「試合数を無視して、ストレート天鳳位のみに対応するものである」と具体的に指摘した。それにかわる目的関数として「固定試合数における天鳳位到達率」と「長期的在位段位」の2種を提案した。固定試合数天鳳位到達率と昇段確率最大化とによる評価が逆転する (現実からは離れるが) 数値例を示した。また、固定試合数天鳳位到達率・長期的在位段位の両者について、昇段確率最大化と評価が逆転する現実的な数値例を探索するための課題を示した。

これから

つづく、かどうかは未定。今回は課題を投げかけたので、もっとやる気のある方に任せたいところ。次に行うべきことは
(1) 全段位における順位分布を引数として、固定試合数天鳳位到達率・長期的在位段位を計算する方法 (数値計算またはシミュレーション) の実装
(2) 同じ打ち手が各段位で実現しうる順位分布についての何らかの仮定と、その実装
(3) 結果を組み合わせることにより、目的関数によって最適戦略が変化することの確認
(4) 仮定の妥当性などの議論

ここから先は

0字

¥ 1,024

この記事が気に入ったらチップで応援してみませんか?