見出し画像

11/17 競馬サイト毎の違いなど

腰が痛いですが、32bit版のノートPCを横になりながらいじっている訳です。

もちろん長時間だとむしろ辛い体制なので、こういう時にこそ年単位のスクレイピングなど、時間がかかる事をやらせちゃおう企画がこっそりと爆誕。

スクレイピングはサイト様になるべく迷惑が掛からぬよう、1ページずつ時間を空けて少しずつ少しずつデータを頂戴する訳ですが、今まではテーブルデータ(いわゆる表データ)はNサイト様の物のみを使わせて貰ってましたが、自身の作った学習用データに信頼を欠く数値が入っていた問題が発覚。参照元であるNサイト様のページを確認したら、、、、でした。

※サイト様がお持ちで公開されているデータは、つまりそれが正解であり、サイト様に1mmも間違いはありません。



さてと。

この辺りの話になってくると、数日前のドタバタ劇がフラッシュバックしてくる訳ですが、自分のした事、発言は全てその時のリアルであり、恥ずかしくも悔しくもあります。ですがそれが生きていくという事。そこから何を活かし、この先の道標とするか、その結果が例のドタバタ劇の供養になればと思います。



やはり脱線しました。



違います、データの話ですよ奥さん!


問題があったのは私の学習用データのオッズでした。

この問題を解決する為に、新たに他のサイト様からオッズテーブルを頂いてこなければなりません。南関競馬という事で他のサイト様といえば、すぐ思いつくのはGサイト様、Rサイト様、でしょうか。

Gサイト様をまず見に行ってみます。

キャプチャ1

これはGサイト様の、あるレースのオッズデータのURLです。これを1レースずつシコシコ数字を変えて年間15000レース程のデータのリンクを辿ってデータを頂いてくればいいので、これで解決です!イケるっ!!


無題


これは絶対やっちゃダメなやつです。とにかく手作業は駄目です、疲れるとかじゃなくて人間は絶対ミスるからです。重複などのミスせずに15000レース分のリンクを辿ってできると言いう方が居たら謝ります。


じゃーどーすんのよ

そこでプログラムを書いてPCに頑張ってもらいます。

ですが、Gサイト様のURLをちょっと見てみてください。%2だとか&だとか、ちょっとヘンなの混じってますよね。これ、プログラムで自動でURLを作ろうとする時に、very面倒なんです。単純に数字だけの方が書きやすいので。もちろんそれを楽々回避する知識のある方にとっては、簡単だとは思いますが。

なので、Gサイト様は一旦そっと閉じて、Rサイト様を見に行ってみましょうか。

キャプチャ1

こちらはRサイト様の、あるレースのオッズデータのURLです。

Nサイト様程はシンプルじゃないですが、わかりますかね、後ろの数字を入れ替えるだけで別のレースにすぐ行ける感じがしませんか?まぁ、Excelの15桁問題があるので、管理的に長すぎるのをどうするかってのはありますけどね。

これは普通に回避可能です。


という事で、狙いはRサイト様に決定です。



今日はこの辺で。

ご覧いただきありがとうございました。




この記事が気に入ったらサポートをしてみませんか?