11/17 競馬サイト毎の違いなど
腰が痛いですが、32bit版のノートPCを横になりながらいじっている訳です。
もちろん長時間だとむしろ辛い体制なので、こういう時にこそ年単位のスクレイピングなど、時間がかかる事をやらせちゃおう企画がこっそりと爆誕。
スクレイピングはサイト様になるべく迷惑が掛からぬよう、1ページずつ時間を空けて少しずつ少しずつデータを頂戴する訳ですが、今まではテーブルデータ(いわゆる表データ)はNサイト様の物のみを使わせて貰ってましたが、自身の作った学習用データに信頼を欠く数値が入っていた問題が発覚。参照元であるNサイト様のページを確認したら、、、、でした。
※サイト様がお持ちで公開されているデータは、つまりそれが正解であり、サイト様に1mmも間違いはありません。
さてと。
この辺りの話になってくると、数日前のドタバタ劇がフラッシュバックしてくる訳ですが、自分のした事、発言は全てその時のリアルであり、恥ずかしくも悔しくもあります。ですがそれが生きていくという事。そこから何を活かし、この先の道標とするか、その結果が例のドタバタ劇の供養になればと思います。
やはり脱線しました。
違います、データの話ですよ奥さん!
問題があったのは私の学習用データのオッズでした。
この問題を解決する為に、新たに他のサイト様からオッズテーブルを頂いてこなければなりません。南関競馬という事で他のサイト様といえば、すぐ思いつくのはGサイト様、Rサイト様、でしょうか。
Gサイト様をまず見に行ってみます。
これはGサイト様の、あるレースのオッズデータのURLです。これを1レースずつシコシコ数字を変えて年間15000レース程のデータのリンクを辿ってデータを頂いてくればいいので、これで解決です!イケるっ!!
これは絶対やっちゃダメなやつです。とにかく手作業は駄目です、疲れるとかじゃなくて人間は絶対ミスるからです。重複などのミスせずに15000レース分のリンクを辿ってできると言いう方が居たら謝ります。
じゃーどーすんのよ
そこでプログラムを書いてPCに頑張ってもらいます。
ですが、Gサイト様のURLをちょっと見てみてください。%2だとか&だとか、ちょっとヘンなの混じってますよね。これ、プログラムで自動でURLを作ろうとする時に、very面倒なんです。単純に数字だけの方が書きやすいので。もちろんそれを楽々回避する知識のある方にとっては、簡単だとは思いますが。
なので、Gサイト様は一旦そっと閉じて、Rサイト様を見に行ってみましょうか。
こちらはRサイト様の、あるレースのオッズデータのURLです。
Nサイト様程はシンプルじゃないですが、わかりますかね、後ろの数字を入れ替えるだけで別のレースにすぐ行ける感じがしませんか?まぁ、Excelの15桁問題があるので、管理的に長すぎるのをどうするかってのはありますけどね。
これは普通に回避可能です。
という事で、狙いはRサイト様に決定です。
今日はこの辺で。
ご覧いただきありがとうございました。
この記事が気に入ったらサポートをしてみませんか?