見出し画像

利用するデータについて

AI競馬をする上で最も大切なことがデータ収集です。
機会学習や深層学習の手法は広く知れ渡っているものがほとんどですので、いかにいいデータを揃えて分析用に成形していくかが、分析をする上で一番大事なことになります。作業のうちの9割はこのデータ成形にかかっています。。
(AI競馬に限った話ではなく、データ分析全般に言える話ですが)

どんなにいい料理の腕前があってもちゃんとした食材がないと美味しい料理は作れないという感じですね。

以下が、一般的にデータとして収集し、成形する元となるものの例です。

■JRA-VAN(有料)
JRAの子会社であるJRAシステムサービスが提供しているデータコンテンツになります。公式データということもあって、出走馬情報やレース情報、結果情報、調教情報、などの詳細データを30年分取得することができます。オッズや馬場の更新性もよく、Target等のツールを使って利用されている方も多いのではないでしょうか。👍

■JRDB(有料)
レースや出走馬の基本情報に加えて、調教情報や出遅れ、不利、落鉄、放馬、位置取り、ペース配分といった記録をしっかりとデータ化してくれています。さらにレース内容や馬場状態、当日のコンディションの影響を加味した独自の指標も提供しており、人間の予想と戦っていく上では、AIに読み込ませていきたいデータになっています。🙆‍♂️

■調教・パドック映像(有料)
皆さまがよく見る調教やパドックの映像も解析することで、馬のコンディションを正確にAIに学習させることが可能になります。例えば、骨格を特徴点として捉えることで全体の馬の動きを把握し、歩幅や歩様を数値化することで計算が可能になります。(直前のデータは時間の問題もあるのですが..😂)
余談ですが、サーモグラフィーで馬の体温を図っているデータがあればかなり欲しいですね。それだけで異常な馬を見つけられそうです(笑)

■掲示板・SNS(一部無料)
人々の反響として面白いデータになります。自然言語処理という技術を使って、どの馬がどのような言葉と一緒に多く投稿されているかの共起頻度を分析することで、オッズからは読めない世間の支持率を把握することができます。例えばTwitterではAPIを使って一定量を無料で取得することが可能です。近年はビジネス系やプレゼント系の投稿が多くなりゴミデータが増えましたが💦

■自作の記録データ
大学時代のサークル仲間達と同じ視点でレース情報をずっと記録しております。例えば、レースを通して騎手がどのように出走馬を操作していたのかを細かく記録することで、その馬の本レースに対する本質的なデータを学習することができます。諦めて追っていない場合と、終始かかりっぱなしだった場合、めちゃくちゃ追ってた場合でのタイムは、それぞれ同じでも内容は全然違いますからね。
このデータがなかったら私は続けられないといっても過言ではありません。😂

以上が参考例です。
(後は、気候情報、記事情報、競馬サイト、等々ですかね)

かなり地味で手間のかかる作業なんですが、、AI競馬にとってとても大切なことなので、まだまだデータについては研究していく所存です🙌


この記事が気に入ったらサポートをしてみませんか?