見出し画像

競馬の数理:確率分布とパラメータ推定

予想手法と数式

馬がどの程度の力を発揮するのかについて確率分布を仮定し、総積と積分から全ての三連単の想定確率を求め、順位確率を集計しています。

大前提

  • 強い馬が勝ちやすい

  • 馬の発揮できる能力はレース条件によって違う

  • 強さの推定・適正の推定には不確かさが伴う

  • 実現されるタイムにはそもそもの不確かさがある(出遅れ、不利etc…)

2種類の分析アプローチ(ファンダメンタルズ・メタ)

予想には2種類のアプローチがあり、株や為替の用語を借りてそれぞれファンダメンタルズ・メタと呼びます。ファンダメンタルズは、馬の能力を推定して実現する順位の確率を求めたり、馬同士を比較して相対的な序列を求める分析です。メタは、投票行動や情報の不均衡に着目してオッズの妙味が高い条件を探る分析です。私の予想の主眼はファンダメンタルズですが、メタも簡単に解説します。

メタ分析の公理

  • オッズ(支持率)は、長期的にはほぼ実現確率を反映している

  • オッズ1倍代では過小評価(これ以上は買えない)や、オッズ100倍以上では過大評価(穴馬狙い)などが発生しうる

  • ランダムに投票し続けると、控除率を除いた回収率70〜80%に収束する

オッズは極めて正確に確率を反映しますが、同じ「単勝2倍」の中でも過大評価している場合と過小評価している場合があります。これらの率が長期的に見て同じぐらいなのでオッズの示す確率≒実現確率となっています。過大評価されている馬を避け、過小評価されている馬を買うことでオッズより有利に立ち回ることができます。

メタ分析は馬の能力を全く見ずに回収率を高める手法です。例えば、以下のような情報を用います。
「オッズに折り込まれていない情報」
→自分だけが一番人気の不調を知っている、競馬新聞入稿後の天気の変化、大勢が投票後のパドック情報、一般的に注目されていないが相関の高い情報など、情報の不均衡から回収率を高めます。
「報道・著名な予想家の発言、有名AIアカウントの予想」
→馬の能力は変化していないのに投票支持率が増えるため、過大評価となります。
「異常な投票」
→自分の感知しない何らかの情報が存在する可能性があります(ピンチでありチャンス)

ファンダメンタルズ分析

各馬の能力を推定し、確率・期待値を直接求める手法です。各馬の順位確率がわかればオッズと見比べて美味いかどうかがわかります。結局、美味いレース・美味い馬だけ買いたい。美味くないレースは買いたくないわけです。

強い馬が勝つ。強い馬とは・・・?

前走のタイム、調教のタイム、経験距離、順位などの断片的な証拠の集合から、馬の能力を推定します。証拠の量と質によって不確かさがあります。例えば初のダート、長期休養明け、新馬戦などでは特に少ない証拠から推定する必要があります。

非常にざっくりと言えば、以下のような式で馬の能力の平均値と分散を求めたいわけです。
 平均値:μ=w1*スピード + w2*スタミナ + w3*パワー + w4*賢さ ……
 分散:σ^2 = f (情報量、年齢、騎手・・・)

図:各馬の能力は分散に応じて幅をもって推定される

馬の能力・分散が推定できたとすると、強さの順番だけではなく、順位が入れ替わる確率や見込みの少ない馬が見えてきます。上図の分布形のそれぞれは、各馬があるタイムtで走る確率密度関数を示しています。この分布形が全ての馬について求まると、1着確率を積分と総積で表すことができます。

gk(t)は馬kがタイムt以上となる確率(上側累積確率)、fi(t)は馬iがタイムtとなる確率密度関数

確率密度関数の分布形状についてですが、馬は能力以上に速くは走れないこともあって下方向に裾野が長い分布になるはずです。この影響を見込んでガンマ分布を仮定している文献もあります(Henery R. J., “Permutation Probabilities as Models for Horse Races”,1981)。私の手法では、ガウス分布を修正した分布(以降、修正ガウス分布とする)を用いています。

さて、タイムtで馬iが一着となる確率は上の式から求まります。馬iがタイムtを出す確率と、馬i以外の全ての馬がタイムt以上である確率の積について、全てのt(0から∞)の和を取ることを示しています。
gk(t)は馬kがタイムt以上である確率(修正ガウス分布の累積分布関数)、fi(t)は馬iがタイムi〜i+dtである確率(修正ガウス分布の確率密度関数)を示します。
同様の考えで三連単の確率まで求めると、その組み合わせで全馬券のオッズと確率が比較できます(とても煩雑なので割愛)

修正ガウス分布

どんなに圧倒的に強い馬でも不利やアクシデント等で馬の能力に関係なく馬券外に飛ぶことがあります。この影響を以下のような定式化で加味することにします。上記確率をtobi、ガウス分布の下側累積確率をlpとして、

    修正ガウス分布の下側累積確率  = lp+(1-lp)×tobi

のように表現します。

パラメータ・重みの推定

  • 芝とダートで必要な能力が違うし、発揮される能力のばらつきも違う

  • 内回りと外回り、短距離と長距離、などで必要な能力が違う

  • 2歳馬と5歳馬で推定した能力の不確かさが違う

  • 良馬場と重馬場で必要な能力は違う

  • 同様に、内枠外枠や差し逃げの有利不利も競技場・競走条件によって変わる

  • etcetc….

能力値の推計の例で以下の式(再掲)を例示しましたが、それぞれのパラメータにかかる重みであるw1,w2,w3….は、競走条件によって変わってくることがわかります。スピードが大事なレースもあればスタミナが大事なレースもあります。ここではかなり単純化していますが、実際は機械学習らしく多くのパラメータを扱っています。
 平均値:μ=w1*スピード + w2*スタミナ + w3*パワー + w4*賢さ ……
 分散:σ^2 = f (情報量、年齢、騎手・・・)

図:影響因子を多層モデルの形で表現する

整理・工夫して学習させる

現在では各影響因子への逆伝搬を近似的に求めて学習を試みています。ただし、各因子の結果に対する偏微分が陽には求まらないので一工夫しています。学習の過程で結果への感度を記憶し、感度が揃うように動的に調整、感度(偏微分)が揃っていると仮定してえいやと決めた定値を微分係数として扱っています。
変数は、式の形を工夫することで別途制約条件を付加しない形とすることで収束性を高めています。(正の値なら指数関数、-1〜+1ならシグモイド関数など)

まとめると

1.競走条件 → 馬の何を重視するかの重み を求める(機械学習の対象)
2.上記+馬のデータ → (カテゴリ別のステータス) 
          → 総合スコア・ばらつき・飛び率を求める
          → 確率を求める(総積を用いた前述の式)
3.上記+オッズ → 期待値を求める(妙味の算出)

このような形で数学的な定式化と機械学習を組み合わせて予想を行い、各指数を算出しています。

Noteのご利用方法

上記のアルゴリズムをベースにして現在3種類の予想を提供しています。それぞれの予想に含まれるデータと使い方についてご説明します。
1.Xの直前予想
2.Noteの全レース予想
3.Noteのレース詳細分析


予想の使い分けと購入検討

Xでは発走10分前にレースの妙味(☆0〜☆5)、印、三連複の軸馬、予測連対率をつぶやいており、これはNoteで提供しているものと一致しています。全レース丸乗りで良い方はXだけで構いませんが、「美味いレース・馬だけ買いたい」という観点からはおすすめしていません。直前オッズと比較し、妙味の高いところだけ馬券にすることをおすすめします。

Noteの全レース概要では、Xで提供するデータに加えて馬連の軸馬(#印)、各馬の妙味インデックスを提供しています。妙味が大きいほど確率に対してオッズが良いことを示しており、1.0以上の馬を軸に据えることが一つの目安になります。
妙味は前日段階での想定オッズに基づいているため、必ず現時点のオッズと比較していただければと思います。じっくり予め検討したい方、レースを選びたい方、詳細分析を購入するレースを検討したい方はご購入ください。当日のオッズにより美味いレースは変動しますし、予想を見てから買うレースを検討していただきたいという思いから、定額・低額で全レースの予想が見れるようになっています。

Noteのレース詳細分析ではレースの必要適性、全頭の期待確率、危険度、各ステータスの値について示しています。より深く考察したい方、全レース概要の根拠を知りたい方、自他の予想と分析を組み合わせて馬券を組み立てたい方は購入を検討いただければと思います。(詳細分析の提供は現在停止しており、提供方法を模索中です)

印の見方、馬券の買い方

◎から△までは連対率の高い順に示しており、オッズと連対率のバランスを見て紐(☆印)を数頭追加しています。馬連流しの軸馬にした時に期待値が高くなるような軸馬(#印)、三連複流しの軸馬(+印)を定めています。

基本的に総合インデックスは強さ・連対率に相関していますが、危険度が高い馬(騎手が未熟、長期休養明け、データ不足など)については連対率から割り引いていますので、印は必ずしも総合インデックス順にはなりません。

現在の成績

昨年の秋〜冬にかけての成績で回収率112%でした。

成績向上を目指して日々調整しておりますので提供段階での成績と異なることはご了承ください。また、期待確率は実際のものに近くなるように努力してはおりますが、あくまで一定のモデルに基づく推論ですので結果を保証するものではありません。一種の占いであるとご了承の上、生活や人生を賭けぬようにお願いします。


この記事が気に入ったらサポートをしてみませんか?