見出し画像

11/22 南関オッズデータ修正開始

腰の調子を見ながらコソコソやっていた修正も、データ再収集&整形が終わり、いよいよ元データ書き換えフェーズに入りました。

このフェーズでやりたいこととは、元データ内の間違ったオッズデータを、正しいオッズデータに書き換えた後、

1 元データの単勝払い戻し額が、単勝オッズと等しいか

2 元データの複勝払い戻し額が、複勝下限オッズと上限オッズ内にあるか

を確認することです。

これで異常値があった場合、払い戻しテーブルかリザルトテーブルがおかしいことになるので、また時間をかけてゆっくりスクレイピングに戻ります。

しかし、ここで注意したいのは1~3着に同着発生時の異常値で、これときちんと分けて評価する必要があります。

まずはグラフ化の準備をしていきますか。


新旧データのマージの前に

TOPの画像は、Rサイト様から頂いてきたオッズテーブル(新データとする)を、いきなり ExcelのVLOOKUP関数でくっつけるところから始まっていますが、旧データはNサイト様から頂いてきたもので、新データはRサイト様から頂いてきたもの。競馬サイト様毎に設定しているレースIDが違うので、それを旧データ型に合わせることから始めました。

キャプチャ10

Nサイト様のレースIDは、左から

西暦+競馬場コード+日付+レース番号  12桁で非常にシンプルです。


Rサイト様のレースIDは、今は画像のように

西暦+日付+競馬場コード(Nサイト型)+レース番号

画像は12桁になっていますが、このレースだと元々は 201601061813100101 でした。これだと Excel の15桁以上の数字はそのままでは数字が勝手に変わる仕様に引っかかるため、スクレイピングで頂いてきたファイルを Excel に読ませる際に、データを直接貼るのではなく、一旦クエリ経由でCSVを編集したものを xlsxファイルにました。

その後、20160106(日付) と 18131001(Rサイト型競馬場コード+開催回+日数)と最後の 01(レース番号) に分け、競馬場コード+開催回+日数を、浦和42 船橋43 大井44 川崎45 にそれぞれ変換し、桁数を抑えつつNサイト型に合わせました。

※レースIDに馬番を繋ぐとuniqueなキーとなります。


新旧データを合わせる

キャプチャ10

このように、同じ型にしたレースID+馬番をキーにして、右側に貼った新データのオッズ部分を VLOOKUP関数でくっつける。これは色々な場面で使えるやり方だと思うので、手に馴染ませちゃうと大量データを扱うときに楽だと思います。


次はグラフ作成の予定です。

有難うございました。




この記事が気に入ったらサポートをしてみませんか?