見出し画像

個人成績から見たStatcastデータの欠損

データを見る視点を変える

 これまでのStatcastデータをリーグ全体という視点から整理してきました。今回からは視点を変えて、個人成績の観点からデータを見ていこうと考えています。

欠損値はどう関わるか?

 「この選手の打球の速度と角度の分布はこうなっている」というデータを見ていきたいわけですが、その前にタイトルにもあるようにデータの欠損値が気になります。

Statcastでは全ての打球の記録があるわけではなく、時にデータの欠損が生じます。その際、特定の値でデータを補填するという作業を行っています。

 リーグ全体でデータを見た場合、全体の何%が欠損を補填した値になるわけですが、個人の成績から見た場合、このデータの欠損はどのような形となるでしょうか?

 いくつか可能性が考えられます。

 仮説1.欠損の生起頻度は運の影響によって左右されるところが大きい。
 仮説2.欠損が生じやすい選手と、そうではない選手が存在する。

 データの欠損が、選手にはコントロールできず運によって左右されるのであれば、それを受け入れるしかありません。“データが欠損しやすい”特定の選手がいるのであれば、その原因を探る必要があります。

 この仮説を検証するために、今回はStatcastデータを打者個人ごとに集計し、データの欠損率の年度間相関を求めました。

年度間相関とは、シーズン間の成績の相関係数を求めた値になります。データの欠損が運によって決まるのであれば、シーズン間の値に相関が認められないという結果となります。一方、年度間の相関が認められれば、あるシーズンのデータの欠損率は、翌年も同じような欠損率になる可能性が高く、この場合データが欠損しやすい打者が存在すると考えられます。

欠損率の分布の確認

 年度間相関を確認する前に、シーズンでのゴロ・ライナー・フライ・ポップフライの打球数と、打球ごとのデータの欠損率を確認したいと思います。まずはゴロのデータを以下の図1-1に示します。

画像1

 この図は右に行くほどゴロの数が多く、上に行くほどデータの欠損率が高いことを表します。

 ゴロの数が少ないと、欠損率は0%から100%まで幅広く値を取りますが、ゴロの数が増えると欠損率は0%から20%の範囲に多くが分布しています。

 次に、ライナーとフライのデータを図1-2と図1-3に示します。

画像2

 どちらも図1-1のゴロと比較すると欠損率は全体的に低くなっています。

 最後にポップフライのデータを以下の図1-4に示します。

画像3

 ポップフライの欠損率は高く、これまでの打球と特徴が異なります。ポップフライの数が増えてくると、大体50%程度に収束していきます。

年度間相関を求める

 それでは、年度間相関のデータを以下の図2-1から図2-4に示します。この分析には、各シーズンでゴロ・ライナー・フライのケースがそれぞれ50以上、ポップフライは25以上の記録のある打者が対象です。

画像4

 この中では、図2-1のゴロのみ弱から中程度の正の相関関係が認められました。他の3つは無相関といえる結果です。

犠打を除いてゴロを再度分析

 ゴロのみ年度間の相関が認められたという結果ですが、このゴロの中には犠打が含まれます。そして、上記のリンク(Statcastデータの欠損と補填)より犠打はデータの欠損が生じやすいことを確認しています。

 MLBでは犠打はそれほど多くはありませんが、図2-1のデータは、犠打の多い打者のデータの欠損が、翌年も犠打が多いために欠損も多く、結果として相関が高くなっている可能性も考えられます。そこで、ゴロの記録から犠打を抜いて分析したものを以下の図3-1と図3-2に示します。

画像5

 図1-1と図2-1の犠打ありのデータとそれほど変わらない結果です。したがって、この傾向は犠打によるものではないと考えることができます。

まとめ

 以上の分析より、データ欠損の性質は打球によって異なり、ゴロは年度間の相関が認められたことから、仮説2の欠損が生じやすい特定の打者が存在すると考えられます。他の打球の場合は、仮説1のデータの欠損は運によって左右されるために、シーズン間の欠損率が安定しないと考えられます。

 どうもゴロについては、データの欠損率は「たまたまこうなった」とはいえないようです。この性質は検証する必要があります。

タイトル画像:いらすとや

参考資料:一般的指標の年度間相関の分析結果


この記事が気に入ったらサポートをしてみませんか?