見出し画像

八村は将来どんな選手になり得るのか

こんにちは

NBAシーズン、再開しましたね。
久しぶりにバスケを観戦できる楽しみとワクワクを享受してます。

そんなときにふと、こんなことを思いました。
八村って将来どんな選手になるんだろう。
ドラフト時にカワイ・レナードが引き合いに出されていたのは記憶に新しいけど、他のパターンもあるんじゃなかろうか。

今シーズン活躍してる選手で、ルーキーシーズンのスタッツが八村と似ている選手が見つかれば、八村の将来像になりうるんじゃなかろうか。

ということで、今回は統計的手法を使って、デビューシーズンの八村に似た選手を見つけていきたいと思います。

これができると

・八村が将来到達するorできるであろう選手が見つかり、育成プラン作成の一助になりそう
・単純に似ている選手の話で盛り上がれそう

といったご利益が期待できます。

それでは見ていきましょう!

手法

似ている選手の見つけ方ですが、今回はクラスター分析及びそれを行う際に利用する「距離」を用います。

用語についてざっくり説明するとクラスター分析とは、複数の異なるもの同士のうち似た性質を持つものをグループ化する分析です。
また、クラスター分析を行う際に必要なのが「似ている」の定義です。
定義がないと何をもって似ていると言えるのかが曖昧になってしまうので、何かしらの基準を設ける必要があります。
クラスター分析では各データの違いを「距離」として捉えることで、その大小を元に似ているかを判断します。
(詳しく知りたい方は下記URLをご参照ください)

・クラスター分析

・距離の定義

また、利用するデータについてですが、今回はbasketball-referenceの下記ページに記載されている項目を取得しています*1。(1998~2020シーズンのデータを取得)

・Traditional stats

・Advanced stats

なお、今回は試合数・スタメン出場試合数・プレイ時間数は除外した上で36分換算のスタッツを利用しています。

これには理由があって、今シーズンのデータがまだ途中&シーズン中断の影響で過去シーズンと比較する際に今シーズンの出場系スタッツが低く見えてしまうためです。

36分換算にしている理由も同様で、総数で比べると今シーズンが少なく出てしまうため、比率の値を採用しています(正規化も実施)。
ただ、分析対象の選手スクリーニングには出場時間データを利用しています(後述)

また、今回の分析にあたり、下記記事を参考にコードなどを書きました。
英語ですが、グーグル翻訳などを使えば大まかな内容をつかめると思います。
面白いのでぜひ読んでみてください。

分析

実際にクラスター分析や距離の計算を行う前に、まずは分析対象の選手を抽出しましょう。

今回は、八村の将来像となりうる選手を見つけたいため、2020シーズンに一定以上出場している選手の、ルーキーシーズンのスタッツを分析対象にします。

それでは、出場時間のしきい値を決めていきましょう。
2020シーズンの出場時間の分布は下記のとおりです。

画像1

500分以降は大体均等に分布していますね(試合数の違いなどあるので参考程度ですが)。

イマイチ決め手にかけますが、今回は1750分以上の選手+カワイ・レナードということにします*2。
(八村の出場時間は1217分なので、処理の際は追加で入れる形にしています)

ちなみに1999~2019シーズンの出場時間分布は下記です。

画像2

500分~2000分あたりは均等に分布しているのが意外ですね。シーズンごとに見てみると面白いかもしれません。

それでは、対象になる選手の条件も決まったので早速分析していきましょう。

まずは選手間の距離を算出し八村に一番距離の近い選手を見つけます。
彼らの2020シーズンの活躍を見ると、将来の八村のイメージ像になるかも。。。!
(距離の定義はユークリッド距離を利用)

抽出結果はこちら!

画像3

一番近いのはトバイアス・ハリスで次点にデローザンでした。
カワイ・レナードも5番目に位置していますね(八村除く順位)
納得感はあるんじゃないかなと思える結果です。

スタッツも眺めてみましょう

画像4

なるほど
トバイアス・ハリスやバトラー、フルツは出場時間が短いのであまり気にしなくて良さそうです(フルツが上位にいるのは不思議です)。

その上で面白そうなところでいうと、デローザンとハリソン・バーンズが似ている選手として出ていることですね。
彼らのルーキーシーズンに詳しいわけではないのですが、将来到達しうるパターンかなと思えなくもないです。

ちなみに八村とカワイ・レナードで意外に似ていたスタッツにASとTOの比率(以下AS/TO ratio)があります。

八村がAS2.1本のTO1.2本でAS/TO ratioが1.75に対し、カワイ・レナードはAS1.6本のTO1本でAS/TO ratioが1.6と近い値になっています。
マイルズブリッジズも近い値ですが、その他の選手はASよりTOが多いか同じくらいがほとんどです。ちょっと面白いですね。

続きましてクラスター分析も行ってみましょう。
今回は似ているグループをわかりやすくするため、階層的クラスタリングを行います。
結果はこちら!(下から4分の1あたりにいます)

階層的クラスタリング_加工

これで見ると、デローザン、トバイアス・ハリスやT・Jウォレン、アレック・バークスが近くにいますね。
(カワイ・レナードとハリソン・バーンズは別グループに行ってしまいましたが。。。)

先程の距離の結果とずれるのは、クラスターを作る際の処理が要因です。
詳細は省きますが、各データの距離を利用したクラスター作成にも追加の処理があり、ある選手に距離が近い選手が同じクラスターに属するとは限りません。
詳しい理屈については下記URLを参照ください。

どちらを採用する方が良いのかに関して明確な答えはありません。
ただ、今回に関しては、カワイ・レナード以外に八村が到達しうるパターンを見つけられれば良いので、どちらかを採用するということはしません。

まとめと補足

今回の結果をまとめると。。。

八村の将来の選手像としてデローザンやトバイアス・ハリスやT・Jウォレン、アレック・バークスもパターンとして挙げられそう

ということになりました。

カワイ・レナード以外のパターンもあると考えると妄想も膨らみますし、取りうる選択肢も増えそうでいいですね。

また、参考がてら2020シーズンで階層的クラスタリングを行った図も載せておきます(上から4分の1あたりにいます)。

階層的クラスタリング_2020_加工


分析の課題は下記の通りです。
例えば今回はシュートタイプの情報が盛り込めていません。
八村の特徴としてミッドレンジシュートが挙げられますが、それを盛り込むとまた違った結果になるかもです。
また、距離の定義についてもいくつかありますが、今回は一般的に使われているユークリッド距離を利用しました。データのタイプによっては他の距離定義を使うほうが適切だったかもしれません。
他にも、怪我等で2020シーズンのプレイ時間が0もしくは短い選手を盛り込めていないのもネックです。具体的はKDですね。どんな結果になるか見たかった。。。
あとは、正規化処理を行っている関係で、選手の抽出条件を変えると正規化後の値も変わるので、より妥当な抽出条件を検討する必要もあるかもです。


ということで今回は以上です。
ご質問・ご指摘などありましたらコメントいただければと思います。
(敬称略)

投稿主のTwitterアカウント

今回のデータやコードの格納場所


*1
本来は利用するスタッツは精査が必要です。
(例えば、シュート系のスタッツしかなかったら、リバウンドなどの違いが見えない)
ただ、今回は楽さを求めてこのデータにしています。本当はガベージタイムを除外したり、DF系のスタッツ増やしたりできると良かった。。。

*2
恣意的ですが、人数多すぎると結果が見えづらくなってしまうのでやむなくということで。。。

サポートしていただけるとありがたいですが、 SNS等で広めていただけるともっとありがたいです。 一緒にバスケを盛り上げていきましょう!