見出し画像

【競艇/機械学習】競艇予測に役立つ指標ランキング

本記事では,
競艇予想において役立つ指標
について,調べた結果を解説します.

皆さんは,どんな指標に基づいて買い目を決めていますか?
全国勝率,展示タイム,オッズ...etc
数えきれないほどの指標があり,特に競艇初心者は,どの指標を見れば良いかわかりませんよね.
そこで今回,どの指標が予測においてどの程度重要なのかを定量的に調査しました.


結論
競艇予測における重要度ランキング
1位.ジンベイ指標(独自指標)
2位.展示タイム
3位.全国勝率
4位.モーター3連追率
5位.当地勝率
6位.展示スタートタイミング
7位.チルト角度

検証方法

教師あり学習モデルを構築し,各指標に対する指標重要度を比較します.
順を追って説明します.

教師あり学習

各艇に関する様々な指標を並べた数値列とその数値列に紐づくレース結果を「教師データ」と呼びます.別の例を挙げると、顔写真から性別を判別する場合は、顔写真とそれに紐づく性別が「教師データ」となります。

教師データは、過去のレースデータをもとにした「正解」のデータと言えます.その教師データを大量に用意し,(教師データが)AIを学習させる手法を教師あり学習と呼びます.その教師あり学習の中にも様々な手法(モデル)が存在しますが,本検証にはLightGBMを用いました.

LightGBM

次々に条件分岐を設けて、データを段階的に分類していく手法です.
以下に簡単な例を示します.

LightGBMの分類手法の概要

上の図において,S1,S2,S3の値は,教師データをうまく予測するように計算されます.
また,上の図は説明のため簡単な例を示しており,実際に構築したモデルは分岐が数百個あり,さらにそのモデルを数百個作り,それらの多数決することで,最終的な結果を得ます.
実は競艇予想AI ジンベイのモデルには,このLightGBMを用いています.

指標重要度

LightGBMの良いところは,教師データのどの指標が結果の予測に寄与しているのかがわかるところです.各々の指標に対する結果の寄与度を指標重要度と呼び,この寄与度を比較することで,各指標の重要性がわかります.
なお指標重要度は,ある指標を分岐に追加したときの,予測性能の向上幅として定義されます.

1号艇チルト角度の指標重要度を計算する場合について,具体例を示します.
以下の二つのパターンについて,それぞれの分岐に対する予測性能を,教師データを用いて測定します.
・パターン①:1号艇のチルト角度抜きで分岐を構築
・パターン②:パターン①の分岐に1号艇のチルト角度を追加

指標重要度算出の具体例

二つの分岐モデルの性能を算出した結果,パターン②の方がパターン①よりも0.5pt高くなったとしましょう.その場合,1号艇のチルト角度はAIの予測性能を上げたことになり,1号艇のチルト角度の指標重要度は0.5ptであると計算されます.逆に,パターン②の性能がパターン①に比べ0.5pt下がった場合,1号艇チルト角度は,予想の性能を下げる要因となっていることになり,指標重要度は-0.5ptとなります.
(※分かりやすさを優先しているため,厳密性を欠いた説明となっています.より厳密な計算手法について知りたい方は,NeurlPS, LightGBM: A Highly Efficient Gradient Boosting Decision Tree, 2016を覗いてみてください.)

本記事では,各指標に対する指標重要度を比較することで,どの指標が予測に寄与しているかを検討しました.

検証に用いる指標

今回は,独断と偏見で,競艇予測に特に重要だろうと思われる指標に絞って,解析しました.

直前情報の指標

①展示スタートタイミング
②展示タイム
③チルト角度

重要度の検証の対象にした直前情報の指標

出走表に掲載の指標
④全国勝率
⑤当地勝率
⑥モーター3連対率

重要度の検証の対象にした直前情報の指標

オリジナル指標
⑦ジンベイ指標
→我々が独自に作った全国勝率の改良指標です.
全国勝率の様々な問題点を克服した指標で,ツイッターでリアルタイム公開しています.
詳細な説明はこちら
https://note.com/jinbei_ai/n/nbe96aafa9af1

結果

ここまで少し長かったですね.
以下,結果になります.

各指標に対する指標重要度

1.一番重要度が高いのはジンベイ指標
2.展示タイムの指標重要度は,BR公式サイトの指標では一番高い
3.チルト角度の指標重要度は低い
このような結果となりました.

考察

チルト角度の指標重要度が低い理由については,ほとんどの選手が0.5度に設定しているからだと考えられます.0.5度以外のデータ数が極端に少なく,AIがその小サンプルの中から規則性を見つけ出すことができなかったと考えられます.このようなスパース性の高いデータについては,スパースモデリングなどの検討が必要かもしれません.

追加検証

さらに,各艇の指標に対する重要度についても調べてみました.
以下,結果(ヒートマップ)になります.
以下のヒートマップは,色が濃いほど指標重要度が高いことを示します.

指標重要度のヒートマップ

全体的に1 - 4号艇の色が特に濃く,その中でも2,3号艇の色が濃いことがわかります.この結果は,2,3号艇の選手の強さがレース結果に大きな影響を与える可能性を示唆しています.また,5号艇,6号艇の色は比較的薄いです.このことから5号艇,6号艇の選手の能力がいくら高くても,結果に影響を与えにくいと考えられ,これは5号艇,6号艇が着内に入ることが如何に難しいかを暗に示しています.
しかしながら,2号艇,3号艇の選手の強さが強いと,具体的にどのような展開になるかまでは,今回の検証ではわかりません.あくまでも結果に対する影響度の絶対値しかわからないのです.今後,機械学習モデルを解釈する技術(SHapley Additive exPlanations)などを用いて,そのあたりも明らかにする必要がありそうです.

まとめ

・展示タイム,ジンベイ指標は競艇予測に非常に有用
・2号艇,3号艇の強さがレース結果に大きな影響を与える

本記事で紹介したモデルの予想結果は,
https://jinbei-boatrace.com/
にて公開しております!是非ご参考にしてください.


一般的なデータ分析のお仕事も承っております.
ご相談は,競艇予想AIジンベイのDMまで.

この記事が気に入ったらサポートをしてみませんか?