見出し画像

有馬記念をチャットGPTを使ってじっくり分析してみる


はじめに

チャットGPTは当たり前ですが、丸投げで何かをしてくれるわけではありませんが、統計分析のやり方など手順を示してくれるので統計学の知識が全くなくても何らかの回答が得られます。
まだまだ、機械学習やデープランニングまで辿り着いていませんが、データセットの前処理や欠損値の処理など実践で学べるのはいいかなと思います。
さて、今年最後の有馬記念では過去20年間のレースの特徴と出走馬の能力を指数化して予測してみたいと思います。

レースの特徴

「添付のデータは過去20年間の有馬記念のデータセットです。このデータから有馬記念で強い馬の特徴を分析したいと考えています。何から始めれば良いですか?」とチャットGPTに任せます。

処理の手順を示してくれるのでカテゴリカルデータの前処理や欠損値の行を削除したり指示を行います。たまに勝手に平均値でデータを補ったりするので欠損値の扱いは事前に指定した方いが良いですね。

データが揃うと「勝利馬の特徴をより詳細に分析することが可能です。」と回答してくるので「分析をお願いします」と頼みます。

まあ、データをざっと見ればわかる当たり前のコメントをしてくれます。このあたりはもっとプロンプトの開発が必要です。6歳以上の連帯率が10年間で0%であることを見抜いて欲しいのですが、うまくいきませんでした。
次に「3位以内に入る馬の特徴を分析して下さい」と何とか3連複を的中させるためのデータがないかを分析してみます。

残念ながらあまりいい情報は得られませんでした。まだまだ試行錯誤が必要です。

出走馬の能力

レース情報からはいい情報を得られなかったので出走馬のデータから各馬の能力を指数化して順位をつけてみます。
各馬の過去のレース結果を取得して、レースと同様に「このデータをもとに馬毎の能力指数を算出したいと思います。どのような手順で行えば良いか提案してください。」とお任せします。

データの前処理と欠損値の処理を行います。強い馬が多いので凱旋門賞などの情報が入ってくると日本でのレースと同じ情報が得られないため欠損値となってしまいます。割り切ってそのようなデータはザクっと行削除します。

データの準備ができたので能力指数として指標化するようにプロンプトで指示します。

どのような特徴量を指定して指数を作成するかについてもあまり時間がなかったのでお任せ状態にしてしまいました。1番人気と3番人気はいませんでしたが、上位人気の馬で当たり障りない予想となりました。

予測結果

能力指数としては「3、2、5、16、15、1」という結果でした。ただし、レースの特徴から6歳上の連帯率は10年間0%なので外します。
「2、5、16、15、1」で勝負です。

3連単:2-5-16
3連複:2,5,16,15,1(BOX)

さあ、今年の締めくくりはどうなるか?

この記事が気に入ったらサポートをしてみませんか?