見出し画像

ChatGPTを使う前にもう一度統計で考えてみる。


はじめに

やはり、いきなり競馬のデータをchatGPTにインプットして特徴や強い馬を識別してくれと言っても無理がある。当たり前過ぎて恥ずかしい。

競馬は何が面白いかというと膨大なデータと不確定要素を織り込んで勝つ馬を予測することだが、個人として様々な楽しみ方ができる。ひたすら単勝で1位の馬を予測したり、数十点買いで三連単や万馬券のみを当てることを楽しみにすることもできる。

もちろん、以前裁判であったように投資として8億注ぎ込んで10億儲けるというような強者もいる。

では、自分としては何を楽しむかということだが、やはり当てる確率が高まるのは楽しいがやはりあまり注目されていない馬が連対することで高配当になるレースを当てたい。特に万馬券なら最高だ。

特定のレース条件、出走馬の特徴やレース展開など高配当になりやすいレースを予測して集中的に当てに行くようなことができれば楽しくて仕方がない。馬券も何十点も購入するのではなく最大で10点買いぐらいで狙いたい。

能書はこれぐらいにして、やはり予測といえばと統計なので統計学を屈指して色々考えていきたい。まず得られるデータとしては、最初は無料サイトの情報を収集してから、必要があれば有料サイトの情報も集めることとする。

無料サイトの情報としては次の情報を得ることができる。

  • 過去のレース情報

  • 出走馬の過去レースの情報

  • 騎手の過去レースの情報

  • 出走馬の血統

スピードについての基本統計量

まずは外してしまった有馬記念のデータを使って分析する。
2023年の有馬記念の出走馬についてのデータについてまずはどのようなデータがあるかを確認する。

有馬記念に出走する馬は多くのレースを走っているのでタイムについての基本統計量を計算してみる。

速度の平均は調和平均が良いのだけれど比較だけなので算術平均で計算して比較する。

この結果は単純に距離とタイムから速度を計算しているがm/sだとイメージが湧きにくいので3.6をかけて時速に変換してみた。平均の時速は58km~60kmと街中の自動車と同じ速度である。数字だけではわかりにくいのでヒストグラムで眺めてみる。

パッとみるとスターズオンアースの分布が他の競走馬より少し右によっており安定して速度は速く見える。実際7番人気で2着であった。スピードだけをみると狙い目であったと言える。優勝したドウデュースも比較的安定しているが海外のレースが参考にできなかったのでレース数が少なく見えてしまいグラフだけでは魅力が少し弱くなっている。

3着はタイトルホルダー、続いてジャスティンパレス、シャフリヤールとなるがタイムは同じでアタマ、クビ差なのでまとめて購入してないと当たらないだろう。グラフだけ見ると特にライラックやハーパーにもチャンスはあったように見えるが、13着、9着と沈んでいる。どんな差があったのかはまた別途分析したい。

速度しか分析していないが3歳以上のオープンなレースについて速度の分布はある程度役に立つのではないかと思われる。


この記事が気に入ったらサポートをしてみませんか?