【風バイアス用】NARの風関連のスクレイピング

連日で懸案であった、気象庁HPからの風向・風速のスクレイピングを行っております。
先ずはコーディングにエライ時間が掛かります。。。
もっというと暑いからやる気が失せてしまう、、、それが一番ですが。
そんな事より、複雑な情報抽出方法を行っていて更にpandasは元より、requestsとButifulsoupをAPIとして使用している関係上、抽出位置情報の採譜が中々に難航しておりました。

風向や風速情報は、数多の競馬関連データの中では完全なる付加要素である為に、既存データ加工とかではなく、「他ではやっていない!」コンテンツと思っておりまして、意外にデータが重宝されるのではないか?と、、密かに期待しております(∩´∀`)∩
ほら、横風突風に強いサメ克くんとか居ますしね。
血統面でも風に強い血統とか、データが取れそうですし。

スクレイピング実施はいつものJupyterNotebookですけど、一応リスト取得は出来ている模様です。↓

### デバック用にprintしております。 ###
2018年度の風向&風速データのスクレイピングを行います(処理に時間が掛かります)
5月のスクレイピング中(2018年)
時分_気象庁_List↓
['00:10', '00:20', '00:30', '00:40', '00:50', '01:00', '01:10', '01:20', '01:30'... 
発走時間_List↓
['15:00', '15:00', '15:00', '15:00', '15:00', '15:00', '15:30', '15:30', '15:30'...
風向_気象庁_List↓
['南東', '南東', '南東', '南東', '南東', '南東', '南東', '南東', '南東', '南東', '南東'...
風速_気象庁_List↓
['0.0', '14.4', '5.3', '9.3', '0.0', '14.0', '5.4', '8.8', '0.0', '13.7', '5.6'...

簡単に言ってしまうと開催年月日と開催競馬場の情報を基に、気象庁の「時分」カラムとforで回してる「発走時間」カラムの行の時刻が符合のモノを取ってくる、そんな感じです。(←時間調整でもめっさ加工してるんです)
勿論、開催競馬場付近の観測地点を絞ってと言う感じですね。
なので、スクレイピング自体の事前処理やデータ自体も多くて。
※年間13万件ちょい。
何しろ重い重い(´;ω;`)
htmlソースをバイナリで保存すりゃいいじゃん?って言うでしょうけど、端末が重くなるのも今は嫌なのですよね(苦笑)
気象庁のデータはこれ以外に使わないから汎用性無いし。
暫くこのソースコードをぶん回して、様子を見るとします。

今回は開発時間も掛かっているし、大変申し訳ございませんがここでどうやったの?的なヒントが出せません、今の所は企業秘密です。
簡単なヒントは出していますがw
実行中の処理落ちの危機も考えられるしね。。。(有料でも今は×)

一旦様子を見るという事で。
そう言えば帝王との色々噂が騒がしい、ささがー君が通算2000勝突破と中央初勝利とのこと、誠におめでとうございますm(__)m
てか開発に手を取られてて、中央も地方もレース自体を見る事すら出来ねー状態っす。

簡単ですが、動きがあり次第で本日は又です!
…とかいいつつ、追記です。
今回Googleの生成AIな”Gemini”さんにも初めて私の書いているPythonのコードについて質問してみました。
うむー、ソコには見たことのないモジュール名が。。。
Python王道であるCopilotみたいなソースコードの提案では無いのだけど、、先鋭的なソースコードでマスターするなら中々奥深さを感じました。
やっぱりねー、Geminiさんも最終的にはローカルなんかであーだこーだするんじゃなくて、「youさ、このデータをDBへ落そうよ!」的な感じでした。
ほらぁ~ね、何で方々はローカルに拘るのか。。。
理由は引き出すのがメンドイというのがあるのは解ります。
そしてローカルなら漏洩の問題も少ないですしね!
ですが、元来のインフラ屋派生系な私はソコが賛成できないのです。。。
そんなこんな、私もGeminiさんに同意見です(∩´∀`)∩
但しソースの省スペース化、つまりはforみたいな段階なイテラブル処理を、async(非同期)にして並列化処理にしよう!をモットーとしているようで、Copilot提案のソースではなく2段階目のソースリプレイス時は恐らくこちらのGemini提案を積極運用すべきだと感じました。

ここは正に、MicrosoftのようにSISC処理を優先していた時代背景(Asureのサービス有るけどさ)と違って、RISC処理というかクラウドコンピューティングを昔から積極活用して、現在はGCPを推すGoogleとの根本的且つ明確な違いを目から鱗で理解をした所でしたw
そして、、RDBはPgSQLをお勧めしたがっているww
(→私が使っているのはMySQL、まぁOracleとも対岸ですしね。)
そりゃそうだ。

先ずはね、このPCなんかにゃスペック的に並列化処理は無理っすよ(´;ω;`)
DBマイグレーションはたといデータを入れ切っても可能だと考察出来るけどさ、、先ずは良いPCにアップグレードしなきゃね(苦笑)
稼いでからの先々の事ですわね。
ではでは。

この記事が気に入ったらサポートをしてみませんか?