見出し画像

【競馬AIのお勉強】レースデータのスクレイングとランダムフォレスト

サムネは小倉荒れすぎだろ…って気持ちで撮ったと思われる写真in東京競馬場

引き続き競馬予想で始めるデータ分析・機械学習さんの動画で勉強

動画の前半ではBeautifulSoupを使って2019年のレース毎の距離や天候、馬場状態、開催日などをスクレイピングする準備を進めている。
ここの段階は1~3回目で使ったこともでてくるし、成形されたデータが出てくるとなんか楽しいしで順調に。

そしていよいよスクレイピングを開始、1時間ちょっと待って抜き出し完了というところで事件が…
画面を見るとrace_○○ = scrape~としたいところをcace_〇〇と打ち間違えていることに気づく。この後全部cace~ってうたなきゃいけないのかしらなどと焦ってしまい再度指差し確認しながらスクレイピングし直し、1敗
朝になってふと、あれこれcace_○○ = race_〇〇とかで置き換えれば良かったんでは?と思いもしたが、どうなんだろ…そういう風に思えるだけでも成長という風にとらえよう。

後半ではランダムフォレストを使っていくことになるけどここは相変わらずポカーンとなっちゃうので、調べて理解深める必要あり。あと、関数化しましょうとかも関数化…?ってなるので少しずつ理解できるようにしていきたいところ。

動画が2年前で仕様がかわっていたりでエラーがでたり、再起動することに備えてスクレイプしたデータをpickleで保存したことで再起動後一部書き換え発生したりと苦戦したもののエラー文をしっかり調べることでなんとか動画分完走。大事なことはちゃんと目の前のPCが教えてくれるので折れない心が大事だと学ぶ。

再起動したときにどこを更新すればいいかとか、ここ過程で使っただけで今はいらんのでは?けど消して何かあったら怖いから変に触れない…初心者あるあるな気がしてますがどうなんでしょうね…?

いただいたサポート費用は書籍購入など自学に使用させていただきます。