見出し画像

Scrapingコーディング漬け

最近、本当にそればかりです。
今開発中なのは、「JRAでも地方競馬でも共通運用可能なCSVデータ出力」だったりします。
いやほぼ完成はしているのですが、PandasのDataFlameを使わないといけない(Numpy使うとか、Seleniumのみでも可能)ちょっと面倒な事象を発見しました。
(VBAとかみたいにfor文グルグル回すのは時間掛かるし、解放しようとも又メモリ食うし、出来れば使いたくないから、、今後はNumpyが良いかなぁ。。。)

そんなこんな順調であったのに、躓いてあらら、、ですよ。
何かというと各IDに独自なuuid使うとSELECT文使用時に時間が掛かるというデメリットもありますが、汎用性を失うという事の方がが致命的でした。
別に私が独自競馬サイトを構築したいわけでは無いので、今は汎用性が欲しいのです。
代わりにシリアル値というか皆さんご使用中の、とある最大級競馬サイトにて使用されているID値。
そう、騎手IDや馬ID、、厩舎IDに馬主ID。
(最近はこれらのIDですら文字列が含まれるようになってきました。)
これをどうにか引き継いで使いたいのですよね。

ある程度は既存コードを参考に見つつ、独自に改修している最中です。
しかし、その錬金術なコーディング検討をしていたら思わぬ副産物で、CSV書き出しの際に分→秒変換が出来ました。
DBインポートはそのままで良いという事です!
これは本当に良かった。

その他の抽出も色々可能な感じですのでいつも早朝までコーディングと抽出に明け暮れている毎日ですw
(傍から見たらツマラナイ毎日でしょうけど。)
機械学習コーディング設計フェーズに早く行きたい所ですが、ここを突破して上手いこと抽出の恒常的自動化を完成しておきたい所です。
要素検討が一番楽しいでしょうからね!!

そんなこんなで、又です~。

この記事が気に入ったらサポートをしてみませんか?