見出し画像

【データサイエンス×プロ野球】プロ野球選手の年俸の内訳を調べてみた(野手編)

プロ野球選手と聞いて、皆さんは何を想像するでしょうか?

体がでかい
投げる球が速い
足が速い
かっこいい・・・

色々想像されますでしょうが、僕の場合「年俸」です

プロ野球の年俸でいうと、普通の社会人と比較にならないほど高額ですが、その分物凄くシビアな世界です。

結果が全て。結果が出なければクビです。

年俸は、選手のシーズン及びこれまでの成績を踏まえた上で評価され、選手の総合的な評価を表すのに、最もふさわしい指標といっても過言ではないでしょう。

でも、本当にその年俸は「正当な評価」によってつけられているのでしょうか?

盗塁の数とホームランの数にどれくらいの差があるのでしょうか?
所属する球団によってどれほどの差があるのでしょうか?

今回は、年俸は何によって左右されているのかを、最近話題のデータサイエンスの技術を使って探っていきます。

計算方法

今回は重回帰分析を使っていきます。

重回帰分析とは・・・
ある変数が他の複数の変数とどのような相関関係にあるのかを推定する統計学的手法の一。回帰分析において、原因となる変数(説明変数)を二つ以上もつもの。回帰式y=b1x1+b2x2+b3x3+…+b0と表される関係があるとすると、b1、b2…は偏回帰係数とよび、重み付けを意味する。最小二乗法などを用いてb1、b2…が求められ、この回帰式をもとに将来予測や要因分析を行う。(weblioより引用)

今回の年俸のケースに当てはめると、

年俸 = 安打数 + ホームラン + 盗塁 +・・・

のようなイメージです。

年俸 = 目的変数

安打数、ホームラン、盗塁 = 説明変数


仮にホームランが一番年俸を左右している場合、 

年俸 = 10(安打数の係数)x + 100000(ホームランの係数)x + 1(盗塁の係数)

となります。


年俸を左右するであろう説明変数の候補は正直勘です笑

多分これだろうという仮説をもとに、候補を出していきます


Let's Try

自分は以下のように説明変数を設定しました。

まず、野手成績のみです

まずは野手といえば、安打の数です。これは外せませんね笑。

ただ安打の数でも、長打を打つ選手のほうが価値があると考察し、単純の安打数と別に、二塁打三塁打ホームランも入れます。
打点も追加します。チームが勝つには得点を入れるバッターは貴重です。打点を入れるに伴い、本来アウトであるはずなのですが、チーム得点力向上のための犠牲として、バント犠牲フライも入れます。

また、フォアボールも入れます。アウト無しで塁に出れるということで、フォアボール = シングルヒットという扱いにします。同様に盗塁も入れます。積極的に次の塁を狙う = 得点力に繋がる = チーム貢献度が高いという理屈です。

また、出場試合数打席数も追加します。出場試合数打席数は、多ければ多いほどチームにとって欠かせないレギュラーであると考えられます。

またネガティブ面としては、三振併殺打(ゲッツー)を入れます。三振を入れる理由としては、アウトがそのバッター一人で完結してしまう点で、チームにとってマイナスとみなします。

またゲッツーは、そのバッターの打球によって、余計なアウトが一つ増えてしまうという点で、マイナス評価とします。また、盗塁死もマイナス評価として、追加します。

以上で項目が出揃いました。

目的変数 
= 年俸

説明変数 
(プラス想定)
出場試合数、打席、ヒット数、二塁打、三塁打、ホームラン、盗塁、打点、盗塁、四球、バント、犠牲フライ

(マイナス想定)
ゲッツー、三振、盗塁死

データは2022年度の年俸をベースに、過去5年分(2021~2017)を集計しました。

そして、気になる結果はこちら

スクリーンショット 2022-08-22 22.00.46

上から順に解説していきます。

coef = 回帰係数

こちらの値が大きいほど、年俸への影響度が高いといえます、マイナスだと、その項目が年俸を下げているということになります。

試合数(games)と打席(daseki)がどういうわけかマイナスになっていますね。

また、二塁打(double)と三塁打(triple)がマイナスになってます。。。。


しかし、こういう項目を見る上で、気をつけてほしいのは P>|t|と書かれているP値です。
0.1もしくは0.05以下の数値になると、その係数に意味があるということになります。

それを踏まえて再度見直すと、二塁打0.663三塁打0.054高めの数値になってます。二塁打に関しては、全く意味がないです。(意味がないということは係数をゼロとして扱ったほうがマシ)

それに比べて、ヒットとホームランは想定どおりでした。(ヒットの2.043+e4ということは、20430)
ヒットは最も年俸のプラス評価に貢献していました。

盗塁死が、盗塁よりも評価が高い。。何故と一瞬考えましたが、P値をみるとほとんど意味がないことが分かります。

打点やゲッツー、三振、犠牲フライもあまり意味がなさそうです。

一つ面白かったのは、ホームランよりもファオボールの方が年俸に対する貢献度が高かったことでした。

ガツンと一発よりも、高い頻度でヒットやフォアボールでランナーになる方が、年俸を効率よく稼げるということでしょうか?

最後に一点。

こちらのそれぞれの数値が本当に正しいのか疑問に思った方が多数いらっしゃると思います。

こちらのモデルの精度が高いかどうかを表す指標ですが、右斜め上にあるAdj R-squaredを参考にします。

これは自由度調整済み決定係数といって、0~1の値を取り、値が高ければ高いほど優秀です。(現実的には0.7以上で優秀と言われるらしい)

このモデルの値は、0.342なので全然駄目ですね。。。笑

駄目だった原因としては、守備指標が入っていないこととか、二塁打、三塁打で分けるのではなく、いっそのこと塁打にしてみるとか、色々改良点がありそうです。

次回以降は、投手版や野手の改良版なども書いていこうと思います!

また野球の年俸だけでなく、AI・データサイエンスの観点から、将来伸びる選手を予測するなど、色々やっていこうと考えておりますので、ご興味がある方は、こちらのインスタグラムのフォローのほど宜しくお願いします!

では!

この記事が気に入ったらサポートをしてみませんか?