Suphx 論文 (7) Online Evaluation を読む

全文無料、購入してくれると喜ぶ。今回は薄めなので半額にしてみた。

Suphx 論文 (6) Offline Evaluation を読むでは理論の検証という意味合いの強い実験結果について紹介した。次は実戦投入の結果。

Online Evaluation

5章のメインは、よく知られた「天鳳で十段を達成した」話だが、他のAIや人間との比較についても触れられている。まず Suphx についてであるが、パラメトリックモンテカルロ方策適応は打牌の制限時間に間に合わなかったので搭載していない。

5000回以上の対局の結果、AIとして初めて十段を達成し、安定段位は 8.74 だったとのこと。爆打NAGAとは安定段では6.6前後であったので、これらに対して2段の改善となる。十段達成歴のある人間のその後の (特上卓での) 対局 (異なるプレイヤーのものをすべてまとめたもの) から計算される安定段の 7.46 と比べても1段を超える改善になっている。2000ゲームでの安定段のブレは±0.3段ほどなので、この差は優劣の判定に十分といえる。

順位の分布と (人間以外の) 和了放銃率についても表で比較されている。より詳しいデータ (手役の割合や打点分布、親子など) も見てみたいところであるが、順位分布だけ数表からチャートに起こしてみた。

画像1

爆打も自然に 1>2>3>4 の形をした順位分布の十分優秀な成績であるのに対し、NAGA はラス回避をする分トップもとれていない 2>3>4>1 であった。一方 Suphx は 1>2>3>>4 と、安定段位という評価基準にフィットした形をしているのがわかる。

具体的な手順として、ダブル天鳳位太くないお/藤井聡太さんのコメント、

混一色が多いこと、23p88p778s から安牌を持って両面固定の打 7s が挙げられている。

ここから先は

0字

¥ 512

この記事が気に入ったらサポートをしてみませんか?