見出し画像

競馬へのデータサイエンス適用の理論解説


本記事では、はたしてどのように競馬の勝馬をAIで予測しているのか、
AIの知識がない方にもわかりやすく、その理論について解説します。

まず機械学習とは?


今回開発した人工知能は、機械学習と呼ばれる技術の一部です。
機械学習は、その名の通り”機械”に”学習”させることとなります。

その研究は各業界で世界的に急速に進んでおり、
身近なものだとiOSデバイスに搭載されているSiriや、
Amazonのレコメンド機能、またGoogleの検索エンジンにも
使用されています。
挙げるとキリがないほど、色々なところに機械学習の技術が潜んでいます。

ここでは詳細の説明は省きますが、超簡単に言うと、
機械に過去のデータと答えを渡し、そのデータの特徴から、
答えを導きだすまでのロジックを学ばせます。


機械学習の分野では、答えを出すために使用するデータを説明変数と呼び、
答えを目的変数と呼びます。

今回開発したAIでは、
説明変数・・・過去レースの馬ごとの膨大な属性データ(後半で説明)
目的変数・・・着順

となり、これにより、翌日開催されるレースに出走する馬の着順を、
事前にAIが予測することが可能になるのです!

ニューラルネットワークとは?


さて、機械学習を使用し勝馬を予測するわけですが、
一概に機械学習と言っても手法が山のように存在します。

私が選択したのはニューラルネットワークという手法です。

機械学習の中でも最も性能が高く、まさに”人工知能”と呼んでよいロジックで学習をしてくれるのが、ニューラルネットワークであり、
まさしく人間の脳神経の仕組みを真似したモデルです。

詳細を書くと1ヶ月くらいかかってしまうので超簡単に書くと、
ニューラルネットワークとは、人間の脳内にある神経細胞(ニューロン)とそのつながり、つまり神経回路網を人工ニューロンという数式的なモデルで表現したものとなります。

スクリーンショット 2020-04-01 18.07.38

この脳神経を、何百万、何千万、何億と作り、
人間の脳のスペックをはるかに凌駕した人工知能を使用し、
翌日の競馬の勝馬を予想しているのです。

何のデータを使用して勝馬を予測しているのか?


人工知能を構築する上で最も大事なのが、学習させるデータです。
学習させるデータが不十分、もしくは不適切だと、
予測結果である着順が大きくズレます。

(当然です。例えば算数のテストの勉強をする時に、国語の勉強をしているようなものなのです。)

この人工知能では、ざっと3,500種類もの馬、レース、馬場状態、騎手のデータをあらゆるデータソースから取得し、学習させています。
また、人工知能はデータ量が多ければ多いほど性能が向上します。
対象にしたレースは10年分の約30,000レースで、
更にレースごとに出走した馬それぞれでデータが存在するため、
データはおおよそ、400,000行×3,500種類のボリュームになります。

なので、400,000行×3,500種類の説明変数から、
着順をAIが予測してくれます。

以下が3,500種類の一部です。
・負担重量
・獲得賞金
・ペース予想
・前走道中順位
・前走道中差
・前走道中内外
・前走後3F順位
・前走後3F差
・前走ゴール内外
・枠確定馬体重
・枠確定馬体重増減
・騎手期待3着内率
・騎手期待単勝率
・輸送区分
・馬出遅率
・入厩何走目
・入厩何日前
・放牧先
・レースグレード
・調教コース
・調教距離
・調教重点
・調教量評価
・仕上指数変化
・一週前追切指数
・一週前追切コース
・追い状態
・調教乗り役
・天候
・馬場状態
・馬場連続何日目
・中間降水量

。。。。などなど、上記はほんの一部で、
このようにデータとして存在し得る情報をかき集め、
レース年月日、場、レース、馬番をキーに結合し、
莫大な説明変数を作成しています。

また、競馬AIというものは世に色々出されていますが、
おおよそ単勝オッズや複勝オッズ、また競馬情報紙の印を
説明変数として入れてしまっているものがあるようです。
これだと、結局オッズに偏る予測となってしまう可能性が高く、
オッズに左右されてしまい、皆んなが当てられない勝馬を当てることが
難しくなってしまいます。

本記事で構築した人工知能には、誰か人が想像した結果、人が生み出した数値は一切入れておりません。

予測値として何が出力されるのか?


人工知能は、答えを予測するもの、と説明しましたが、
タイムや着順等、色々試した結果、実践で一番使えた,
3着以内に入る確率
を馬ごとに出力させるよう学習をさせています。

他記事で予想を展開していこうと思っておりますが、
基本的に、この3着以内に入る確率を用いて、
独自の計算方法で期待値指数を算出、
それをもとに馬券を決めております。
(確率の高い馬の予測だけを行っても、
投資した結果回収の見込みがなければ意味がありませんので)

今年の実績は回収率150%超えですが、日々改良を重ねておりますので、
みなさまのご参考になる予測を提供できればと考えております!

お楽しみに!

この記事が気に入ったらサポートをしてみませんか?