すべてのレーティングモデルを比較する（イロレーティングの場合）

2023年5月13日 12:02

ここでは、イロレーティングの変動係数K、得点差の反映方法、ホームアドバンテージの値を変化させて、どれがもっとも正確なレーティングになるかを、損失関数である平均二乗誤差（MSE）を使って比較します。

変化させたもの

・変動係数 K: 10～50の2刻み（21通り）
・ホームアドバンテージ HA: 0～50の2刻み（26通り）
・得点差の計算方法 f(d): （7通り）
　default （得点差を考慮しない）
　WFER （World Football Ero Ratingsの方式）
　prev. （テキトーに作ったやつ）
　sigmoid （シグモイド関数をそのまま）
　sig-2 （sigmoidを得点差+1の時0.8に調整したもの）
　sig-3 （同0.7に調整したもの）
　tanh （tanh関数）
・試合データ Dataset: J1リーグ戦を6年ごと（5通り）
　1993～1998年度
　1999～2004年度
　2005～2010年度
　2011～2016年度
　2017～2022年度

計算方法

レーティングの初期値は1500。
全チームのレーティングを毎試合計算しながら、「試合前のレーティングから求めるホームチームの期待勝率（0～1の範囲内）」と「ホームチームの実際の結果（1, 0.5, 0のいずれか）」の差を二乗したものを加算していき、最後に試合数で割った値（平均）を算出します。
これを、すべての組み合わせ（21*26*7*5=19110通り）で計算して比較します。

計算結果（K, HA, f(d), Dataset）

平均二乗誤差（MSE）を、「変化させたもの」ごとに平均したものを以下の表にしました。
赤い文字が最も数値が良かったものです（数値が小さいほど良い）。

変動係数Kは、24の時に最も小さくなることがわかりました。
上記の表は抜粋です（12とか14などは省略しました）。

ホームアドバンテージ（HA）は、40の時に最小となりましたが、どれもほとんど差がありませんでした。

得点差の計算方法（f(d)）は、シグモイド関数の「得点差+1の時0.8に調整したもの（sig-2）」が最も良い値となりました。

試合データでは2011年～2016年の数値が最も小さくなりました。
1993年から2002年まではVゴール方式の延長戦が行われていました。2003年以降は90分で同点の場合は引き分けとなり、引き分けの数が増えたので、数値が小さくなっているものと思われます。

計算結果（Kとf(d)の組み合わせ）

以下は、変動係数 K と得点差の計算方法 f(d) の組み合わせの表です。

先ほどは、変動係数Kは24が最小となっていましたが、得点差の計算方法と組み合わせて平均を取ってみると、変わってきます。

もともとのイロレーティングの場合ですと、Kの値は20が最良となっていますが、シグモイド関数を使って得点差を考慮すると、30～40ぐらいと大きめの数値のほうが良くなるようです。

これらの組み合わせで最も数値が小さかったのは、K=30 で sig-2 を採用したモデルでした。

まとめ

変動係数K＝30、得点差の計算方式はsig-2が最良でした。
ホームアドバンテージははっきりとした差があらわれませんでした。
試合データは、Vゴール方式が無くなった2003年以降を使うと良さそうです。

以下は、最良だったsig-2の計算式です。

得点差 d を使って、実際の勝率 W を求めます。
引き分けの場合(d=0)は従来どおり0.5となり、1点差勝ちの場合(d=1)は0.8となるように、dにln(4)をかけています。

この記事が気に入ったらサポートをしてみませんか？