見出し画像

種牡馬クラスタリング再び・・ファクターを6つに増やして

6つのファクターで種牡馬をグループ分けするのが今回の目的。

種牡馬の個性を明らかにしたい欲求から、勝ち星をあげているコースの特徴からデータ整理したのが以下2つの記事でした。

またそれ以前には芝の勝利シェアと平均勝利距離の2要素から種牡馬を グループ分けしていました。

視覚的に種牡馬のイメージがつかめることを紹介しました。

画像1

6つのファクターで種牡馬をグループ分け

今回はそれらを総合し、6つのファクターによって改めて種牡馬をグループ分けしてみましょう。

6つのファクター
・芝勝利比率(勝利数全体に占める芝の割合)
・距離
・直線距離
・コーナーの数
・左右周り
・PCI
※すべての値は1着時の平均値

例えば、「東京コースが得意」とか「時計のかかる芝が得意」とか、より具体的な情報をPCI値や直線距離が表してくれるだろうというのが今回ファクター追加した狙いです。

ただしファクターが増えると視覚的には理解できないので、そんな時の解決策もあります。

先に今回得られたデータを見ておきますか。

画像6

( データ対象:2015〜2020/07/26で勝利数の多い100頭の種牡馬 )

グループ数を8に設定したところは議論の余地が残りますが、ひとまずこれでいきましょう。

各グループについて、どのようなネーミングができると思いますか?
まぁわかりやすいのは、クラスタ2が短距離ダート系、クラスタ6が芝中長距離系あたりでしょうか。

クラスタごとの代表的な値を見る

各クラスタの個性を考えるために、データの中身を見たいですね。
一般的にはクラスタセンタを見る訳ですが、クラスタセンタだけでは画像のようにイメージが湧きづらいです。

なのでクラスタセンタに最もユークリッド距離で近い種牡馬をチェックします。

画像3

先ほどの分類とセットでみましょう。

画像6

クラスタ0:特殊な分類で5頭が該当。ダート特化型・左回り偏重・直線距離長め ズバリ東京ダート巧者でしょう。

クラスタ1:ダイワメジャーが代表的で、芝メイン・短距離〜マイル。

クラスタ2:ケイムホームが代表的で、ズバリダート短距離型。

クラスタ3:ワークフォースが代表的で、芝ダート兼用・中〜長距離型

クラスタ4:タイキシャトルが代表的で、芝短距離型。

クラスタ5:クロフネが代表的で、ダートメイン・マイル前後型

クラスタ6:ジャスタウェイが代表的で、芝中長距離・上がり特化型

クラスタ7:サムライハートが代表的で、クラスタ5の芝適正高い版。

ファクター間の相関

芝ダート比率や距離以外は割と近い値になるので解釈が難しいですが、要らないファクターもあるかもしれないので各ファクター間の相関係数をチェックしておきます。

画像5

画像6

最も相関係数が大きいのがコーナー数と距離。短距離は基本2コーナー、中距離は基本4コーナーなのでまぁそうですよね。ただ他のファクターとは相関が低いとなると削除するって訳にもいかないでしょうか。

本来ならば主成分分析でファクターを削減していくべきですが今回は割愛。

活用の方法

実際に予想や分析で使うには、Targetなりに取り込んでコースごとにクラスタ成績のズレを探すとかですか。(Targetへの取り込み方はこちら

このコースは芝なのに、ダート系の好走率が高いとか、コースごとに当てはめたりするのはコースの個性を理解するのにも役立ちます。

なんにしても種牡馬1頭1頭の理解も大事ですが、一方でざっくりと種牡馬の属性を理解しておくことも重要だと思います。

また今回はクラスタ数を8に設定しましたが、ここは試行錯誤の余地がありますね。

少なくとも前回の芝勝利比率と平均勝利距離の2ファクターよりは、細分化して種牡馬を分類できているのではと思います。

種牡馬を分類することについては、正解もゴールもないので感覚的にしっくり来るラインまで持っていくのが理想です。個人的にはそうゆう意味でももう少し細分化してもいいのかなと思っています。

似たようなことを自分自身でやりたい方へ

コースデータの整理についてはPythonを使ってやる方法を以下で紹介しています。

今回使用した100頭の種牡馬データについてはCSV形式で添えておきます。各種データは標準化されたものです。

08/04 追記 クラスタ数10ver

クラスタ数8だとファクターを6つに増やしたメリットをイマイチ感じられなかったので、クラスタ数10のものを追記します。

スクリーンショット 2020-08-04 13.58.22

興味深いのは、ディープインパクトのクラスタ7です。
このグループは芝の中距離系でクラスタ3と同一の分類がなされることが多いので微妙な違いが表現されているはずです。

例によって各クラスタセンタに最も近い種牡馬のデータを見てみましょう。

画像8

ではクラスタ3とクラスタ7の違いは何でしょう。
クラスタ7の方が直線距離長め・コーナー少なめ・左回り率高め・距離短め

クラスタ3がザ・芝中距離型とすれば、クラスタ7はマイル付近の直線の長いコースが典型。

ダイワメジャー・ロードカナロアが属するクラスタ5はそのクラスタ7よりも距離が短め。

またクラスタ1とクラスタ4も一見似たジャンルのダート種牡馬ですが、
クラスタ1はより長距離ダートに特化した珍しいタイプ。サマーバードがここに属するのが典型的ですね。

解釈が微妙なラインはクラスタ8とクラスタ9でしょう。
ここに属する種牡馬の名前をみて、一瞬で得意レンジを答えるのは難しいんじゃないでしょうか?

まずクラスタ8はブラックタイド・スクリーンヒーロー・キズナなどが典型。芝勝利比率が53%で芝ダート兼用型です。また右回りが得意なのも特徴的。

クラスタ9はキングズベスト・ストリートセンス・モンテロッソなど渋めの米欧タイプが属しています。
ダートメインでゴールドアリュールのクラスタ4とかなり近い特徴ですが、芝への含み・右回り特化が際立つ点です。

このようにクラスタ数を8▶︎10と変えるだけで、ちょうどいい感じな分類ができたように思います。

あとはTapitなんかはクラスタ数を多くすれば必ず1頭だけ分類されたりして、いかに特徴的な戦績データであるかが浮き彫りになります。

いわば外れ値的な成績を残す種牡馬を浮き上らせれば、馬券での活用もしやすいでしょう。

この記事が気に入ったらサポートをしてみませんか?