見出し画像

データの安定性

問題

Q1. ある選手がゲームに途中出場してスパイクを1本打って1得点、スパイクの決定率は100%、この選手はリーグ最高の選手か?

Q2. 別の選手はゲームに途中出場してスパイクを1本打って1失点、スパイクの決定率は0%、この選手はリーグ最低の選手か?

 両選手ともリーグでの出場はこの1回だけとし、これ以上の記録は無いこととします。読み進める前にひとつ考えてみてください。

答えは……

 さて、問題の答えですが「わからない」になります。流石に1回だけの結果で選手の良し悪しを判断できないというのは、直感的に理解できるかと思います。

 ここで極端な例を出したのは、客観的とはいわれる数値であっても、その値を信用できないケースがあるということです。

サンプルを増やせば良い

 この問題の解決方法は簡単です。サンプルを増やせば良いだけです。サンプルは多ければ多いほど、数値は選手が持っている真の能力に近くなっていきます。

 しかし、現実的な問題として積み上げることのできるサンプルには限界があります。どこかのラインで「このあたりで」と切り上げる必要があるわけですが、ひとつの目安として1シーズンという区分があります。

 1シーズン分のデータという区分に統計学的な根拠はないのですが、サンプルの蓄積と、シーズン単位で進行するという区切りの良さという利点があります。

 では、1シーズンにそれなりの出場機会を得たデータであれば、そのデータは信頼のできるものなのでしょうか?

シーズン間の安定性を野球のデータから

 残念ながら1シーズン分のデータであっても、必ずしも大丈夫とはいえません。バレーボールからは横道にそれますが、野球のデータでそれを確認してみましょう。

 fangraphs.comというサイトより、2000年から2019年までのアメリカのメジャーリーグでのデータを持ってきました。

 このデータより、1シーズンで300打席以上の記録のある打者をピックアップし、サンプルの少ない打者を除きました。

 この条件を満たした打者から、さらに2年連続で記録のある打者をピックアップし、彼らの打率(ヒット/打数)と三振率(三振/打席)のデータを前年と翌年で比較しました。このデータを以下の図1-1と図1-2に示します。

画像1

 前年と翌年のデータの関係を相関係数で表しています。この値が1に近いほど、前年と翌年の値が似たものになっているということを表します。シーズンを挟んで成長する打者もいれば衰える打者もいますが、全体としては概ね前年並みの成績になるといえます。

 こうした相関関係が確認されるということは、その値はシーズン間で安定しているといえます。この安定性が確認できることで、あるシーズンの成績から、次のシーズンも同じくらいの成績を残してくれるだろうと、データを信頼して見ることができるようになります。

 一方、相関係数が0に近いケースを考えてみましょう。このような結果の場合は、前年の値から翌年の値が予測できないということになります。つまり、あるシーズンの成績を見たところで、次のシーズンを見ても何の役にも立たないことになります。こうしたデータは安定性を欠く性質を持っているといえます。

 データを見る前に安定性の有無を確認しておかないと、安定性を欠いた数値としては意味のないデータを扱ってしまうリスクがあります。

 図1-1と図1-2の相関係数を見ると、いずれも相関があるという結果です。したがって、打率も三振率も安定したデータとはいえますが、三振率の相関係数が高いのに対し、打率はそれほど高くはありません。

 このように、指標によって安定性の程度は異なります。

 このため指標ごとにシーズン間の相関関係を確認しておく必要があります。以下に資料のリンクを紹介しておきます。


バレーボールの話をしよう

 データの安定性というものを理解していないと、今見ているデータがどれくらい信頼できるかはわからない、という話でした。

 野球のデータを例に出したのは、バレーボールではこの手の話はほとんど検証されていないからです。既にサービスが終了してしまったスポーツナビのブログで、この安定性のデータを分析したものをアップしていましたが、今は見ることができなくなってしまっています。

 一生懸命集めたデータが、そもそも指標の性質として安定性を欠いた信頼できないものである可能性があるのは、あまり気持ちの良いものではないでしょう。

 というわけで、次回以降、今使っているイタリアのデータを使って今回見たようなシーズン間の安定性を検証していこうと思います。日本のVリーグとの類似性なんかも合わせて見ていけるようにはしたいと考えています。

Volleyball Data Room情報

 前回、Githubにイタリアのデータをアップした記事を書きました。その時点ではチームの試合ごとの記録であるGamelogのデータだけでしたが、個人のGamelogデータも追加しています。

画像2

 ファイルが大きすぎてDivisionごとに分けてのアップになります。使いたい人は活用してください。

 こんな感じで、進捗がありましたら紹介していきます。

タイトル画像:いらすとや


この記事が気に入ったらサポートをしてみませんか?