見出し画像

【バスケのデータ分析論文紹介】Predicting Season Outcomes for the NBA

こんにちは

本記事ではNBAの試合結果やプレーオフでの成績予測を行った論文の紹介をします。
複数の機械学習手法を用いて予測を行っており、それぞれで予測精度(正解率)も出しているので、精度の相場感を知るのに良い論文だと思います。

概要

NBAの10シーズン分のデータを用いて試合結果を予測するアプローチを提案し、それを用いて優勝チームやプレーオフを勝ち進むチームを予測した。結果として、スポーツベッティング会社のオッズと同等の精度を示し、ELO ratingより精度が高くなった。

分析内容

データ
利用するデータは下記。

画像1

試合の中のスタッツ(得点やアシストなど)はあえて使わないようにしているそうです。また、試合の勝敗に以外にも、直近数試合の勝率だったり、先シーズンの実績や、そこからの選手の入れ替わり、サラリーやドラフトピックなど多種多様なデータを揃えています。B.LEAGUEでも原理的にはこれに類するデータは集められますが、かかる工数が膨大になりそうです。

試合の結果を予測するモデル
ロジスティック回帰(Linear Regression)・線形SVM(Linear Support Vector Machine)・ランダムフォレスト(Random Forest)・多層パーセプトロン(Multilayer Perceptron)の4つの手法それぞれで学習と予測を行う。
精度は正解率を用いる。

正解するか否かの精度にも色々な種類があり、今回はその中で一般的に精度と言われる種類のものを使っています(すべての予測の中で正解した割合)。
他にどんな指標があるのかはこちらなどを見ていただければと思います。

結果

手法ごとの予測精度は下記となり、ランダムフォレストが一番精度が高かった。
・ロジスティック回帰:68.58%
・線形SVM:68.18%
・ランダムフォレスト:69.88%
・多層パーセプトロン:68.85%

感覚的には、手法ごとの差は大きくない感がありますね。なので今後予測モデルを作る際のベースラインとして、正解率70%弱を置くとよさそう。
あと、個人的に気になるのが、各手法で予測が食い違った試合の特徴です。そこが見えると手法ごとの強み弱みが分かりそうなので。

また、ランダムフォレストの特徴量重要度*1 を算出した。一番予測に寄与している特徴量は前年から残っている選手の前年のパフォーマンスとなった。
*1 予測に使ったデータの中で、どの種類のデータがどの程度予測に寄与しているかを表したもの。この数値が高いほど予測に寄与している

論文内には上位の特徴量が載っているので気になる方はそちらを見てください。
また、書いといてあれですが、特徴量重要度は参考程度にとどめてください(似た種類の特徴量があると効果を食い合ってしまって小さく見えてしまうなど、懸念点があるため)。
個人的には予測手法に依存しない特徴量重要度(Permutation Feature Importanceなど)を使って、予測手法ごとに出してみると面白そうに思っています

そして、最後にランダムフォレストのモデルを使って、各シーズン各試合ごとのチームごとの勝利確率を予測し、試合ごとにどのチームが勝つかを、上記確率を利用して割り当てた。
これをシーズン終了まで実施すると優勝チームやプレーオフを勝ち進むチームがシミュレーションされる。
このプロセスを1万回実施し、各チームが優勝する確率やプレーオフのどのステージまで残るかの確率を算出したところ、スポーツベッティング会社のオッズと同等の精度を示し、ELO ratingより精度が高くなった。

シーズン内のデータが特徴量に入っていることもあり、シミュレーションする際にN試合目までのシミュレーション結果を元にN + 1試合目をシミュレーションするという形を取っている。
個人的にこのシミュレーションだと、シーズン途中のチームの変化が反映されないので問題があるように思えるが、具体的な解決策も思い浮かばないのが悩ましいところ。

感想

試合ごとにどちらが勝利するかだったり、シーズンの最終結果だったりを予測するというシンプルなお題ですが、特徴量の選定やシーズンのシミュレーション方法は中々興味深いものでした。B.LEAGUEにも適用できるやり方なので、データを集める仕組みがあればやってみたい内容ですね。
ただ、機械学習の手法の使い方に関しては良くも悪くもオーソドックスで、とりあえずいくつか手法使ってみました感が強いので、機械学習モデルの結果の深堀りがもう少し欲しかった感があります。
また、どちらが勝利するかの正解率も70%弱という目安が見えたので、勝利予測を行いたいと考えている方のベンチマークにもなりそうです。

ということで今回は以上です。
ご質問・ご指摘などありましたらコメントいただければと思います。
(敬称略)


投稿主のTwitterアカウント


サポートしていただけるとありがたいですが、 SNS等で広めていただけるともっとありがたいです。 一緒にバスケを盛り上げていきましょう!