![見出し画像](https://assets.st-note.com/production/uploads/images/136232196/rectangle_large_type_2_5175674b543782045117bc9e89f9f174.png?width=1200)
【競馬AI開発#4】馬の過去成績データをスクレイピングで取得
はじめに
この【競馬AI開発】シリーズでは、競馬予想AIを作ることを通して、機械学習・データサイエンスの勉強になるコンテンツの発信や、筆者が行った実験の共有などを行っていきます。
今回の記事は、以下の動画に補足を加えてまとめたものになります。
今回やること
今回はnetkeiba.comから「馬の過去成績データ」をスクレイピングにより集めて、一つのテーブルとして繋げていきます。
![](https://assets.st-note.com/img/1711864874902-9OltQoNpX2.png?width=1200)
https://db.netkeiba.com/horse/2020103575/
![](https://assets.st-note.com/img/1711864980801-8camC1uxLR.png?width=1200)
この「馬の過去成績テーブル」は、「予測したいレースに出走する馬が、過去にどんな成績を出してきたか」という情報が記録されており、その主にその成績をもとに予測を行うことになるので、精度を出す上で肝となるデータとなります。
イメージとしては、以下のように予測対象レースの各馬に対して「馬の過去成績を集計したもの」を結合していくことで、特徴量(機械学習モデルのインプット列)にします。
![](https://assets.st-note.com/img/1711863979619-WPTTUCkOsu.png?width=1200)
動画中の実行環境
・OS: Mac OS 14.2.1
・言語: Python 3.11.4
・エディタ: VSCode 1.87.0
VSCodeやPythonのインストール方法については様々な記事で紹介されているので、適宜参照して設定してください。
また、以下のライブラリを使用しています。
beautifulsoup4==4.12.3
pandas==2.2.1
selenium==4.18.1
tqdm==4.66.1
webdriver_manager==4.0.1
筆者のプロフィール
東京大学大学院卒業後、データサイエンティストとしてWEBマーケティング調査会社でWEB上の消費者行動ログ分析などを経験。
現在は、大手IT系事業会社で、転職サイトのレコメンドシステムの開発を行っています。
↓単品購入したい場合はこちら(内容は本記事と同じです)
動画中のソースコード
ここから先は
7,700字
/
4画像
/
1ファイル
![](https://assets.st-note.com/production/uploads/images/132651487/profile_341c24d2ad0c8017fe3ac1ba1fc3f3aa.png?fit=bounds&format=jpeg&quality=85&width=330)
単品購入するよりマガジンの定期購読がお得です(全て単品購入した場合の半額以下になります)。
月の途中で入っても、その月に追加された有料記事を全て読むことができます。
「定期購読していない月」に追加された有料記事は読めませんので、面白いと思っていただけましたら、定期購読しておくことをおすすめします。
【定期マガジン】競馬AI研究所
¥980 / 月
「競馬予想AIを1から作る」ことを通して、機械学習・データサイエンスの勉強になるコンテンツの発信や、筆者が行った実験の共有などを行っていき…
この記事が気に入ったらサポートをしてみませんか?