【競馬AIのお勉強】ターゲットエンコーディングと競走馬の勝率について考える

動画をみて実装するほうはターゲットエンコーディングの回まで実装完了。


ターゲットエンコーディング=カテゴリカル(質的)データを数値に変換する方法の1つだそうで。開催場所や芝ダートなどの区別に賞金などの数値を当てはめて数字上の意味を持たせた回になります。ターゲットエンコーディングをどういう形で行うかは結構頭を使う部分に感じたので今回やったことが有効かとか他にどういうことができるかのようなことは追々理解が追い付いたらやっていこうと思います。

続いて馬の勝率について

期待値はオッズ×その馬の勝率でだすとして当たり前だけど勝率をどうやって出すかがカギでそれが想像よりかなり難しいことに気づいた今日この頃。

現状正規化した予測数値を出走馬で合計しそれぞれの予測値を割合として出すことでだしていたのですが。正規化するということは数値が0~1の間に収まってしまうので開きが少なくなってしまう。なので勝率が団子に近い形になってしまっている気がします。

正規化せず生の予測値で同様のことをやってみると多少開きは出るものの見た感じそれでも開きが出ない。もちろんそうなるレースもあるのは承知で圧倒的に強い馬がいた場合は4.50%の勝率が出るような形になるべきだと思っているのですが現状そうはならないので何か違う気がしている。生の予測値も0~1の範囲であるからでしょうか。

中央値を0にする標準化ならあるいはと思ったのですが、マイナスがでてしまうので現在の足して全体からの割合を求めるやり方はできない…
などなど悩んでます。パッと出ている印象の勝率も意外と難しいですね…

〇試したいこと
標準や分散をだせるなら偏差値をだすことももちろんできるので、
1.出走馬の予測値を偏差値に変換、偏差値50に位置する値を100/出走馬にする(例えば10頭なら10が偏差値50になる)
2.偏差値ごとに点数をだしたものを勝率とする。

蓋開けてみたらなんもかわらんやんけな可能性もありますが試しておきたいのでメモとして。

今週末は大阪杯。枠順も出ましたがいまのところラーグルフを狙いたいところ。AIさんは何を狙うんだろう…といいつつ最近バタバタしていてAI回しながら競馬観戦できるかあやしいところですが。頑張ります。

いただいたサポート費用は書籍購入など自学に使用させていただきます。