ピッチの質を測定する

2016 SABR Analytics Conferenceで、私たちはMajor League15球団のanalystと一緒に座り、私たちの新しい指標であるQOP(投球の質)の観点から2015年の投手rosterについてcustomizeしたreportを提供しました。それらのdiscussionは魅力的で、非常に有益なものでした。特に、sabermetricsのbackgroundを持たず、純粋に統計的な面白さからQOPにのめり込んだ統計学の教授である私にとっては、そのような意味合いが強かったのです。今回はその時の様子をお伝えしたいと思いますが、まず、QOPとは何でしょうか?

QOPとは、球速、位置、動き(Rise, Total Break, Vertical Break, Horizontal Break)を一つの数値にまとめ、0から10までのscaleで球の質を算出するモデルです。開発経緯やdataへのaccessなど、詳細は弊社website「QOP Baseball」をご覧ください。QOPは、投手の向上(シーズン中とシーズン間の投球の比較、5項参照)、scouting(minor leagueや海外のRadar gunに実装した場合)、怪我の予防(シーズン中の著しい低下、弊社SABR2015presentation、slide 25-28参照)、ファンの楽しみ(mphやrpmとは異なる情報)、など多くの用途が考えられます。

私はPITCHf/x databaseのすべての投球について、2008年まで遡ってQOP値(QOPV)を計算しました。これらのデータを使って、SABR conferenceでのmeetingでanalystが投げかけた主な質問にお答えします。まず、QOPとERAの相関関係を示し(第1節)、次にQOPが結果に関係する追加の方法を示し(第2-4節)、最後にQOPでできることの例をいくつか挙げて(第5節)締めくくります。

1.QOPとERAの関係は?
analystからの質問で最も多かったのは、「QOPはERAとどのように関係しているのか」というものでした。同じ投手について、ある年と次の年のERAの散布図を見たところ、相関関係は非常に低いことがわかりました(r = 0.20~0.24)。QOPはともかく、どんな統計値もERAと相関があるわけがない。アナリストの一人(彼らは皆、名前を伏せるよう求めていました)が、素晴らしいヒントをくれました。それは、投球イニング数の少ないデータでfilterをかけ、年度をまたいで組み合わせることでnoiseを減らすというものです。その結果、ERA、FIP、SIERAの間でばらつきがあり、関係がスムーズでなかったので、とても不安になりました。QOPAが、球種、球数、塁上のrunner、打順の回数など、さまざまな試合要因に敏感であることはわかっていました(第2節参照)。そこで、これら4つの要因の平均的な影響を年ごとに計算し、それに応じて個々のQOPVを調整しました。

例えば、2015年については、球数0-2のQOPVはすべて-1.11の調整を行い、球数3-2のQOPVは0.26を加える、というようにした。球種、塁上のランナー、打順の回数を変えても同様です。そして、各 seasonのQOPVの分布の中心が0になるように、その seasonの平均QOPを差し引いた。これらの調整済みQOPVの平均が、結果として得られる "投手効果 "となります。これが、投手効果対ERAのグラフです。

さらに比較のために、FIPとSIERAでも同じことをしてみた。2008年から15年までの先発投手をX軸に、同じ投手の平均ERAをY軸にGroup分けしたものである。投手効果が上がると、ERA、FIP、SIERAが下がることが明らかになりました。他の統計も使うことができます。ここでは、9回あたりのホームラン数、HR/9について一つ紹介します。

0.5付近で興味深いbumpがあります。それは、上のFIPのグラフでも見ることができますが、そこでは、trendが崩れていません。現時点では説明がつかないのですが、mphによる本塁打でも同じ現象が観察されています。

こうして、analystの最初の質問に答えました。QOPが上がると、ERAは下がる。

2.QOPは投手要因の違いについて何を語っているのか?
前節で、走者、球数、球種、打順の回数の平均的な効果を取り除いたので、詳細を示したい。まず、出塁したランナーに対するQOPAである。

0.5付近で興味深いバンプがあります。それは、上のFIPのグラフでも見ることができますが、そこでは、trendが崩れていません。現時点では説明がつかないのですが、mphによる本塁打でも同じ現象が観察されています。

こうして、analystの最初の質問に答えました。QOPが上がると、ERAは下がる。

2.QOPは投手要因の違いについて何を語っているのか?
前節で、走者、球数、球種、打順の回数の平均的な効果を取り除いたので、詳細を示したい。まず、出塁したrunnerに対するQOPAである。

人が塁に出るとQOPAが下がり、ランナー3塁、2・3塁の「pressureのかかる状況」でQOPAが最も低くなっています。次に、投球回数ごとのQOPAを紹介する。

投手は、0-2countではstrike zoneを外して投げ、full countではより正確に投げる傾向があります。QOPAはこの知識を数値化したものである。

3つ目は、上位10球種のQOPAです。

QOPの計算方法のため、一部の球種は他の球種よりもQOPAが高くなっています(例えば、FTやSIは、球速が速く、コマンドが良く、動きが大きい球種です)。一方では、これによって、異なるタイプの投球を同じ絶対的な物差しで測定する事ができるようになります。一方、上記のERAの結果のように、その影響を取り除く事で、すべての投球を相対的に比較する事ができるようになります。第四に、打順の回数はどうでしょうか。

2015年 seasonのグラフのデータと割合(カウント数)は、下の表で確認できます。他の seasonの結果も同様です。

例えば、左下記入の0.618は、0-2 QOPVの投球数288球の内、0.618=178/288で178球の単打があった事を表しています。次のgraphは、hitになったswingでの出塁数によるQOPVの分布を示したものである。

本塁打のQOPVは、やはりsingleのQOPVより明らかに低い。次のgraphは、投手指名別のQOPVである。

このgraphでも、QOPVが高いほど良い結果を連想させることがわかる。具体的には、以下の表を参照されたい。

Called Strikes の割合は 8-10 QOPV Groupで最も高く、0-2 QOPV Groupで最も低くなっています。In Play, Out(s)では、37%(紫+青)が6-10 QOPVからきているのに対し、0-4 QOPVからは20%(赤+黄)しかきていない。Out of zone pitchでは、0-2QOPVが17%、8-10QOPVが1%と、予想された逆の傾向が見られました。in play/run、ノーアウトを除いた全てのCategoryで、QOPVの低い球種の割合が高くなると予想していた通りです。

何が起こったのでしょうか?QOPVの低い球は、振り回される確率が非常に低いことがわかりました。例えば、0-2 QOPVの球の23,171/26,981=85.9%がstrike zoneから外れているのに対し、8-10 QOPVの球の1,156/7,790=14.8%だけがzoneから外れていることが判明しました。

以上、QOPVとGroup別出塁率、出塁数、球種指定との関連性を分析者に示すことができた。

4.cross validation
この日のevidenceの強さを見た後、あるチームのanalyst groupは、別の角度からapproachしました。彼らは、私たちのモデルが統計的に一貫しているかどうかを知りたかったのです。私は次の数回のsessionにlaptopを持参し、QOPの2倍のcross validationを行うためのCodeを作成しました。2015年のRegular + Post Seasonのdataを使って、私は次のようにしました。各投手について、彼のQOPVをrandomに2つのGroupに分け、各グループの平均値、mean1とmean2をとりました。これを各投手について繰り返し、合計734組の(mean1, mean2)を得ました。次に、2つのGroupの間のピアソンの相関を計算した。これを10,000回繰り返した。10,000回の相関の平均値(括弧内は標準偏差)を以下に示す(括弧内はSD)。

同じ作業を、全ての球種を合わせたもの、Fast ballのみ、Off-speed pitchのみでも行ってみました。その結果、全球種合計(R2=52%)と速球(R2=56%)では十分な結果が得られたものの、Off-speed pitchの相関が低すぎて、検証されたdataと見なすことはできませんでした(R2=29%)。最小値が30以下、100以下、200以下の投手を除外すると、全ての相関が非常に良いcross validation levelに上昇しました。翌日、分析担当者にmailで送った所、満足したようです。

QOPで何ができるのか?
というERAの疑問が頭をよぎり、また、分析に工夫が必要な部分もあり、会議を終えました。しかし、QOPAとその構成要素の内訳が、analystの投手rosterの大半の直感的なrankingをどのように説明しているかを見て、議論を重ねるうちに、「これは使える」と感じるようになりました。このセクションでは、2016年の野球シーズン中に同僚のウェイン・グライナーから投げかけられたいくつかの質問に答えるために、私がQOPAをどのように使用したかを紹介したいと思います。

以下は、QOPの有用性を示すと同時に、既知の結果との整合性をさらに強化した多様な5つの例です。最初の4つは、投手の成績を論じた最近の記事を取り上げ、QOPの観点からの考察を提供しています。最後の1つは、ERAの予測についてです。先に進みますが、このセクションの第一の目標は、出された質問に答えることではなく、むしろQOPの有用性を示すことであることを強調したいと思います。読みながら、先発投手の1シーズン(2,000〜3,000球)のQOPAの誤差が0.15程度であることに注目するとよいかもしれない。

5.1.複数シーズンにおける一人の投手コール・ハメルズ
Eno Sarrisは、「Cole Hamels Got Better in the Big Leagues」の中で、Cole Hamelsが28歳の時に、速球とチェンジアップにカッターを加え、カーブを加えて球速を上げたことを述べている。サリスは、(1)ハメスの速球の速度は2012年以降上昇するが2016年には下降する、(2)ハメスのカッターは2008年の9イニングあたり2本塁打から2015年には0.5本塁打に下がり、2016年には1本塁打を超えて急上昇するグラフを示しています。QOPAが洞察を加える。

「Baseball Mystery」でThe Home Run is Back and No One Knows Why」で、アーサーとリンドバーグは "2015年の異常な得点の急増 "を調査しています。彼らの説は(i)暖かい気候、(ii)優れた新人打者、(iii)弾むような野球ボール、である。周囲に聞くと、clubhouseでは①と②が主な説で、④投手力の低下も加わっていた。アーサーとリンドバーグが調べたところ、(i)と(ii)は、ごくわずかな上昇をもたらした可能性はあるが、ジャンプを説明できるほどではないことが分かった。彼らは(iii)を完全に否定した。彼らは、QOPの領域である(iv)を探求しなかったので、ここで......。

まず、このグラフは2008年から2015年までの9イニングあたりの平均失点数をQOPAに対してplotしたものです。(便利なことに、Y軸の両統計には同じ数値スケールが適用されています)。Run Average/nineのデータは、ArthurとLindberghの論文の傾向線からの年次値である。一つの観察として、彼らは2015年後半にRA/9の急増を正しく指摘していますが、全体的な傾向はまだ低下しています。彼らの素晴らしいグラフを、下のグラフと比較して、その視点の違いを理解してください。

QOPAとRA/9のスピアマン相関は-0.82で、強い負の相関があることがわかる(ピアソンの相関=-0.84)。統計学的に言えば、年平均の場合、個々の値にはランダムな変動があり(Arthur and Lindberghのgraph)、全体としては傾向が保たれる(私のグラフ)ことが普通である。したがって、データには「得点の急増」と「減少傾向」の両方が存在する可能性があるのです。実際、Arthur and Lindberghのグラフでは、16年のうち半分の年に「scoring serge」(正方向に長く伸びた線分によって示される月間走行数の大幅な増加パターン)が観察される。

野球物理学者として知られるアラン・ネイサンは、2015年には別の種類の「得点の急増」を観測している。アーサーとリンドバーグから記事の相談を受けた彼は、7月から8月にかけて本塁打が増加していることについて書いている。特に、"出口速度のわずかな上昇が、比較的大きな本塁打の増加につながるのはなぜか?"と問いかけました。Statcastの出口速度データを使って、2015年6月と8月の打球の出口速度を調べ、"all-star game後の打球あたりのホームランの増加は...平均出口速度の小さな〜1マイルの上昇を伴っており、おそらくそれが原因である "と結論づけたのです。

彼は、Statcastの出口速度のデータを取り、6月と8月を比較し、異なる出口速度でのホームラン確率分布とともに、この結論を導き出しました。小さな変化がホームラン確率に大きな変化をもたらすのは、95〜105mphの出口速度の範囲である(1MPHあたり約1.5%)。すべての球種で増加した確率を累積すると、ネイサンはすべてのホームランが13%増加すると推定しており、これは観測された量に非常に近いものです。

アーサーとリンドバーグのように、7月から8月にかけての本塁打の急増には、年間パターンがあるのだろうか?過去8年のうち7年は、7月から8月にかけて本塁打数が増えていることがわかった。さらに、同じ年にQOPAも7月から8月にかけて上昇しており、これは私の予想とは正反対である。

列は8月から7月の値を引いたものである。本塁打の増加 vs. QOPA のスピアマンの相関は 0.35 (0.16 Pearson's) であるのに対し、本塁打 vs. mph の相関は 0.14 (0.00 Pearson's) であった。観察結果

7月から8月にかけて(オールスター明け)本塁打が増えるパターンがあるようだ。(なぜ?)
mphには平均的な増加が見られるが、本塁打とは相関がない。(なぜ?)
本塁打とQOPAの間にわずかな正の相関がある。(なぜ?)
QOPA の増加のかなりの部分はスピードの増加であると思われる(スピアマンの相関 = 0.50、ピアソンの相関 = 0.46)。しかし、他の要因もある。さらに疑問は残るが、QOPはArthurとLindberghのクラブハウス説④、投球の質の低下を否定することができる。実際、投球品質は2015年に上昇し、7月から8月にかけて毎年上昇するパターンを持っている。

球速の上昇は、出口速度の上昇に転化しているのだろうか。アラン・ネイサンとのダイヤモンド・キネティックスの対談によると、2015年の球速は0.61mphで、出口速度は0.12mph程度(0.61の20%)しかないことになる。もし完全な説明が機器や天候や新人打者や球質低下でないなら、統計的に言えば、おそらくそれぞれのいくつかと未知の要因でしょう。私が一番言いたいのは、QOPがある説明を除外することによって、質問への答えに役立ったことを示すことです。私の個人的な推測では、不足している要因は打者の経験だと思います。おそらく、彼らは投手を研究し、シーズンの後半に優位性を得ているのではないでしょうか?

5.4.投手に対する守備。打者
これまでの例は、すべて投手とそのQOPAに関するものでした。我々は、野球のあらゆるステップの結果は、投球の質という土台の上に成り立っていると考えている。従って、投球の定量化が十分に発達すれば、打者の定量化の基礎として利用することが可能である。このあたりは今後の研究課題ですが、トロント・ブルージェイズの2015年の891点から2016年の759点への落ち込みが、直面した投手の質の違いによるものだったのか、QOP情報を求められた記者に送ったグラフがこちらです。各グラフは、年ごとに1チーム1点ずつ。X軸はその年の全対戦投手のQOPAである。Y軸は、その年のチームの得点である。

2015年、2016年ともに、QOPAが高いほど失点が少ないという相関がある弱い傾向が見受けられますね。ただし、これはデータの主要なグループにのみ見られるものです。例外もある。興味深いのは、両年ともブルージェイズが唯一の例外であるということです。2015年、彼らはメジャーで最も多い得点数を記録し、明らかにトレンドを破っている(青点)。2016年、彼らは平均以上の失点をしているが、パイレーツ、マリナーズとともに、最も厳しい投手と対戦した(QOPAによる)。2016年の失点が最も多いのはレッドソックス。

5.5.88パーセントの精度でERAの上昇/下降を予測
QOPAを使った投手レポートをまとめているとき、私の同僚であるウェイン・グライナーは、ERAとQOPAが高い選手は、翌年ERAが大きく低下する傾向があることに気づきました。これが事実かどうかを検証するために、私は以下の表を作成した。データ統合の問題で、1年あたり約3分の2の投手しか含めることができなかったが、ランダムであるため、代表的な投手である。

左から右へ読むと、nはQOPAとERAの基準を満たす投手の数、pはn人の投手のうち翌年のERAが低くなった投手の割合である。例えば、表の1行目は次のように読める。2008年のメジャーリーグでは、ERAが4.5以上の投手でQOPAが4以上の投手は164人であった。この164人のうち、71.3%が2009年にERAが低下している。09-10年のコラムも同様に、2009年シーズンのデータが2010年の結果を予測する、といった読み方をしている。

ERAのデータでは、全シーズン平均で、1シーズンのERAが5以上の選手で、QOPAも5以上であれば、予測精度は85.5%(右端のコラムの太字)となっている。QOPAとERAの閾値の組み合わせを変えると、予測精度は75.9%から100%まで変化する。QOPAが高ければ高いほど、この基準に合致する選手の数は少なくなりますが、精度は高くなります。このような予測の誤差は、投手の数によって、3%から10%である。

85.5%の予測率を評価するためには、次の表に示す基準率を知る必要がある。最初の項目、0.555は、2008年からのdata set中の全投手のERAの55.5%が2009年のシーズンで低下した事を意味します。2008年から13年までの全体の低下率は53.0%であり、おそらく低ERAの投手が引退し、高ERAの新人が入ってきたため、半々より少しましな程度である。このように、QOPAを用いてERAを予測することで、成功率は大幅に向上する。とはいえ、平均への回帰により、平均以上のERAを持つ選手の50%以上が低下すると予想されるという指摘をしたあるレビュアーの意見は認める。

これらの計算の結果、2016年にERAを下げると予測したのは以下の9選手。

アーロン・ブルックスとエスミル・ロジャースはそのseasonには登板せず、7人の選手が残り、このうち6人の投手が2016年に低いERAを記録している。これは85.7%で、上に示した過去の精度85.5%と驚くほど一致する。同じ方法で、2017年にERA低下を記録する選手を以下の16名と予測した。

このsectionでは、5つの多様なtopicについて投手と投球について観察しましたが、私の主な目的は、特定の観察ではありません!むしろ、QOPはそのような観察を行うのに適しており、会話の中で貴重な新しい洞察をもたらすことを示すことでした。むしろ、QOPがそのような観察をするのに適しており、会話に貴重な新しい洞察をもたらすことを示すことでした。

まとめ
帰り際に、ERAのヒントをくれたアナリストが手を振って微笑んでくれました。私は手を振り返して、15人のチーム代表者と話をした中で、彼が最も批判的で、それゆえに最も役に立ったことを考えた。彼は、QOPAによる投手陣のランキングに同意しない2チームのうちの1つに所属していました。両チームからの説明は、コーチが少なくとも一部の投手に異なるロケーションモデルを使用しているというものでした。我々は、QOPはまだ一人の投手の一貫性を測るのに使えると主張しましたが、彼は気にも留めませんでした。彼は完璧さを求めていたわけではなく(確かにQOPはそうではありません)、QOPがどのように結果に関係しているのかを見たかったのです。また、QOPが内部的に一貫しているかどうかを知りたがっている人もいました。そして、さらに他の人たちは、QOPで何ができるかを見たかったのです。私はこの記事を、これらの質問に答えるための、私の最初の公的な試みとします。

最後に、私たちはピッチクオリティを、投手のコントロール下にあるピッチの物理的、測定可能な特性(動き、位置、スピード)と定義していることに留意したいと思います。これは、ディセプション、テンポ、シーケンス、コンテクスト(ハンドネス、アウト、メンオンベース、バッターラインナップ)などの微妙な要素を含むピッチャーのクオリティと混同しないようにしましょう。投手の中には、クオリティに頼らず、微妙なニュアンスで成功する投手もいます。

例えば、ジョニー・クエトはQOPA4.31(2016年)でしたが、投球テンポを大きく変化させていました。田中将大はQOPA4.26(2016年)だったが、どんな状況でも6つの球種を均等に配分して投げていた。マディソン・バムガーナーはQOPA4.29(2016年)だが、リリースまでのボールの保持を隠し、それによって投球の欺瞞性を高めていた。これらはすべて優れた投手です - しかし、彼らの成功は、私たちの尺度であるピッチの質(動き、位置、スピード)ではなく、他の要素で測られるのです。私たちは現在、QOPを基礎的な要素として、他の要素と組み合わせて投手の質を決定する方法を探っています。

SABRカンファレンスで時間を割いてくださったアナリストの皆様、また、SABRとは別に、この数年間フィードバックを快く提供してくださった方々に感謝いたします。また、私の同僚であるウェイン・グライナーには、この研究へのインプットをいただき、それがなければ、この研究は不可能であったでしょう。

この記事が気に入ったらサポートをしてみませんか?