NARのデータって。

開催が多いだけにScrapingするのがとても大変ですね。
満を持してでは無いですが、各ID取得の必要があったためにコード修正をしておりましたが、、とんでもない数のデータ数でしたw
中央開催データについてはScrape取得済なのですが、舐め過ぎていたかもです(苦笑)
取り急ぎのデータ取得を頑張っています。
更にこのデータでは問題があるっちゃーあります。
某競馬最大級サイトでは、能力試験のデータが取れない事です。
これは仕方が無いと諦めました。

明日明後日には取得完了まで行ければいいけど、加工まで行けるかな??という不安も些か付き纏いますね。
もっと早くにやっていれば良かったのに、と我ながらに思いますが、、私は夏休みの宿題も終盤追込み型であったので…という言い訳しておきます。

NAR用のテーブルカラムはJRAと全く同じとなりますが、これにより共通データを保つことが出来るので、馬毎のデータや出馬表にも共通性を補完出来るかな?と思っております。
何しろ独りでコツコツなので、なかなか開発の進みが遅いのは申し訳ありません<(_ _)>
しかし、加工前のデータ容量などに少し恐怖を感じています。。。怖いなぁ。
取り終わったデータはアーカイブ化して、どっかのストレージに放り込んでおくかなぁ。
加工作業も先々自動で出来るようにコーディングしますが、プロセス構築が先だと思っておりますので、作業のプライオリティは若干落ちますね。
加工する内容はもう既に確立は出来たので、一旦はマニュファクチャリングです(苦笑)

加工が終わればCSVにしてテーブルへインポート作業になりますが、テーブルにさえなってしまえば取り出す方法はSQLで自在ですし、以前投稿したような方法で確率を出す事も出来ますしね。
まぁNoSQLでも可能ですけど、条件が多くなればなるほどでローディングに時間がどうしても掛かってしまいます。
DBにしてしまえばそれが解決できますからね。

出馬表Scrapingだけは先に作成したい、、、着手は来月になりそうだなぁ。
これが出来ないと機械学習まで行きつかないので、ね。
血統データはScrapingの遣り様があるので、そこまで心配していませんが、調教データもScrapingしたいよなぁ、、しかし本当にやることが多いです。
あと天気のデータ、天候と風向風力。
これらは単勝オッズや馬体重と同じように、RedisやJavaScriptで取込みをしたいと思っています。

時間が物凄く掛かりそうなので、このままコードを実行したまま眠りに就きます、おやすみなさいませ<(_ _)>
まぁ、テーブルインポート終わったらToDo作るか。
というわけで、またです!

この記事が気に入ったらサポートをしてみませんか?