見出し画像

[プロ野球データ分析] セ・パのトップ30のバッターを主成分分析したらうまく説明できそうな件

プロ野球のトップバッターはどんな性質を持っているか気になりません?

野球選手の良いバッター、悪いバッターの違いは何なのか。
ホームランが打てる人多いのかヒットが打てる人が多いのか。
トップバッターは野球で一般的な成績のどの部分の要素の性質を持っているのか気にならないでしょうか?
今回は、プロ野球のセ・リーグ、パ・リーグの上位30位のバッターを主成分分析して上位30位x2のバッターを分析しようと思います。
主成分分析から見えたことはデータでもトップバッターは打力と走力で説明できそうです。

上位30位のバッターってどんなチームがいるの?

まずは、主成分分析する前に上位30位のバッターはチームで分けるとそれぞれのチームに上位のバッターが何人いるか見てみます。

画像1

こう見るとさすが西部ライオンズは打てるバッターが多いことがランキングに入っている人が最も多く8人です。
意外なのは、ヤクルトが同率2位で上位に入るバッターの数が多いです。
中日も上位30位のバッターの中に5人いて巨人や広島多いところは意外ではないでしょうか。
その分投手陣を安定したいところかもしれません。

主成分分析って?


一言でいうと次元縮小の方法です。
野球のデータを見ると、打率、出塁率、盗塁、本塁打・・・とたくさんの種類のデータがあります。
このデータすべてをみて分析してたらどのデータが重要か重要でないかの判断や説明も含めきりがありません。
そこで、多くの種類のデータの中で主要な要素を調べます。
主要な要素とは表現レベルが高い軸を指します。
表現レベルが高い軸とは複数のデータの種類の分散が大きい軸を求めます。
極端な例でいうとすべてのトップバッターが本塁打30本だとしてら、本塁打を見る必要がないのは当たり前です。
実際のデータはそんな極端ことはほとんどないですが、数値的にどれだけ本塁打や出塁率が注目すべきか知りたいものです。
数値的にどれだけ注目すべきかを数値として表現する手法が主成分分析です。

詳細の理解は数学の知識が必要です。
これをここで説明するとそれだけで記事がいくつもできるので下記のサイトを参考にしてください。
たくさん主成分分析に関する説明をしているサイトがあります。


主成分の2つの要素で50%はデータを説明できる。

主成分分析をすると、新たな指標でデータが得られます。
下記のグラフでは、
'打 率', '試 合', '打 席', '打 数', '得 点', '安 打',
'二塁打', '三塁打', '本塁打', '塁 打', '打 点', '盗 塁', '盗塁刺', '犠 打', '犠 飛', '四 球','故意四', '死 球', '三 振', '併殺打', '長打率', '出塁率'
の22種類のデータを主成分分析したとき、いくつの要素で22種類のデータを何パーセント説明できるか表しています。
21個の要素で最初の22種類のデータを100パーセント説明できる結果になっています。この結果でも22種類のデータを21個の要素にしたという意味では次元縮小されていますねw


実際に使うのは2要素だけにします!(えぇぇぇ
なぜなら、重要な野球の成績の要素を抜き出したいからです。
結果からは、第1要素と第2要素でデータの半分以上を説明できるのです。
と、いうことで第1要素と第2要素を見ていきます。

画像2


ここから先は

886字 / 2画像
この記事のみ ¥ 100

よろしければサポートをよろしくお願いします。サポートいただいた資金は活動費に使わせていただきます。