11/29 薬物で失格
某元プロ野球選手の事を、評論家気取りで切ってやろうという訳ではないです。
その手の芸能人や元ナニナニのダレダレがって話は、私の人生に何一つとして影響を与える事は無いので1mmも興味は無いのですが、事競馬に於いてはノイズを発生させる要因になるので捨て置けません。
極稀に、順位確定払い戻し後に薬物で失格になる馬がいます。(某有名馬の時はかなりのインパクトでした)
こうなると事後的に失格となり、もしそれが1着馬なら、2着だった馬が繰り上がりで1着、3着だった馬が2着と、公式なデータが書き換えられます。
しかし、払い戻しデータについては競馬法により、確定時のデータそのままです。後でやっぱし払戻金返せは出来ないことになってます。
ここでデータが汚れます。
つまり、確定順位1着の馬の単勝払い戻しが0になり、失格馬の単勝払い戻しがあるというデータになってしまう訳ですね。
今回のたまたまオッズデータと払い戻しデータを作り直している途中で気付いたんですが、古いデータの整形中には、正直気付きませんでした。何せ10万頭分以上のデータを、個別に一つ一つ確認していくのは無理ですから。
まさに上記のパターンで、1位入線は 12番 ギガドルマだったようですが。
で、払い戻しは変わらないのでそのままです。
数多いレースの中で、本当に極稀ですがこういうノイズがどうしても発生してしまいます。そして、そんなノイズを持ったままのデータで機械学習、いや、データ競馬だと頑張っても、そもそもそのデータを信頼できないですよね。
ちなみにこのレースのデータは手持ちのデータから削除します。
色々なアプローチでノイズを探し、あったら対処の繰り返し。この作業は実に面倒ですが、とりあえずグラフ化の前、整形する前の素のデータの状態でやっておくのが一番楽だと思うので、しっかり潰していこうと思います。
以上、なかなか先に進まない言い訳日記でした。
この記事が気に入ったらサポートをしてみませんか?