WARは何に適していますか?

titleの質問に対する簡単な答えは、もちろん「全くない」というわけではありません。代替以上の勝利数、一般的にはWARと呼ばれるものが実際に何を意味するかは、もっと複雑です。

約3年前、FanGraphsの編集長であるデイブ・キャメロンが「WAR.Works」と題した記事を書いた。というtitleの記事を書き、WARに基づく2009年の予想勝利数と実際の勝利数の相関を示しました。その相関関係は高く(r=.83)、キャメロン氏はこの結果をもとに、次のような興味深い発言をしています。

WARは完璧ではありません。しかし、既知の限界や、文脈上の状況が最終的な記録に与える影響のばらつきを考慮すると、勝敗を予測する上で非常に素晴らしい仕事をします。

キャメロンの言葉を心に留めておくこと、またの機会に。

WARがmainstreamで注目され始めたことは、本当にexcitingだと思う。Baseball-ReferenceのWARは、ESPNの主要な統計Leaderboardに直接表示されています。WARはsports centerでも紹介されました。

Sabermetrics Communityの "cult "精神に由来するものかもしれませんが、WARが主流になった事と、Saber Metricianの間でWARが持つ統計の重みが逆になっていると私は考えています。キャメロンが先に紹介した記事を書いた時、彼はWARが当時もSabermetrics Communityの中で反対派に直面していたことを指摘しています。

UZRが出す守備の数字が気に入らない、置換レベルを信じていない、投手はBABIP率をControlできると信じているなど、様々な理由で様々な要素を信用しない人たちから、WARはそれなりの懐疑的な目で見られています。

WARは受け入れられつつあるが、Internet上で最も優れたsabermetricsを研究する人たちの中には、特にsingle seasonの指標として、これまで以上にこの統計から距離を置いている人もいる。

Saber Seminarでの私の論文の目的は、あるseasonのperformanceを記述するWARの能力と、その後のseasonにおける将来のperformanceを予測する能力を評価する事でした。

最初の分析は、キャメロンのoriginalの研究と同じでしたが、少し修正を加えました。sampleを増やし、FanGraphsではなく、Baseball-ReferenceのWARを使用しました。

まず、B-RのWARとFGの違いについて簡単に紹介します。次に、キャメロンのsampleを修正し、1996年から2011年のFull seasonのwild card時代(1995年はやや短縮 season)に、1 seasonあたり5team(合計80team)を無作為に選んだものを加えました。そして、その各 teamの累積WARを取り、実際の勝利数に対して逆行させました。

Baseball-ReferenceのWARでは、勝率.320を基準としています。したがって、WARが0のteam、あるいは完全に代替 levelのteamは、162試合の season中、約52勝が予想されます。基本的に、WARが勝利の由来を正しく説明しているのであれば、線形回帰式はそれに近いか正確になるはずです。

勝利数 = 52 + 1.0*WAR

つまり、選手がteamに貢献したWARごとに、teamは52勝の基準より1試合多く勝たなければならないのです。simpleだが、効果的だ。

80teamのsample回帰の結果は以下の通りです。

回帰の結果、まず目につくのは、sampleが予測された一次方程式にいかに上手くfitしているかという事です。Trend lineの傾きは1.0程度と予想していましたが、0.97となり、切片は52程度と予想していましたが、52.7と非常に近い値となりました。

このsampleからの相関係数r(.91)は、キャメロンの研究からのもの(.83)よりも高い。また、その相関関係をr^2に換算すると0.83となり、これは単純に、勝利数の分散の83%がWARによって説明されることを意味する。これはすごいことだ。

キャメロンのoriginal研究に否定的な人たちの中には、WARに基づく予想勝利数は有用ではないと主張する人もいましたが、それは主にピタゴラス記録が勝利数と0.91の相関を持ち、キャメロンのWARの相関よりも高い事を示したからです。興味深い事に、私の研究でWARが持っていた相関は、キャメロンのピタゴラス記録の相関と同じだったのです。

また、キャメロンの研究では、WARと実際の勝利の差の1標準偏差は6勝以上(6.4)と計算されていますが、私のsampleの標準偏差は3勝以下(2.91)です。このsampleでは、80team中42teamが予測WARの合計から3勝以内に収まっていた。キャメロンは、彼の30teamのうち18team(67%)が6勝以内であったことを指摘したが、このサンプルでは80チームのうち67チーム(84%)が6勝以内であった。

sabermetricsがsingle seasonのWAR値の重要性から距離を置くようになった主な理由は、Single seasonの守備指標には異常なほどばらつきがあり、多くの人がそれを信用していないためです。今シーズン最も批判を浴びた守備統計は、Baseball Info Solutionsが発表したDefensive Runs Saved(DRS)である。

DRSのdataはBaseball-ReferenceのWARの計算に使用されるが、そのdataは2003年までしかないため、私のsampleは2つの異なる守備指標を使用したWARdataを持っていた。1996年から2002年のsampleは、ショーン・スミスのTotal Zone Rating(TZR)を使用しました。

2つの異なる指標に基づくWARの間に有意差があるかどうかを確認しました。主に、DRSの批判によって、WARのDRS部分がサンプルを狂わせている可能性が高いと、私の頭に十分な疑念を抱かせたからです。

TZR(1996年~2002年)。WINS = .94*(WAR) + 53.37, r= .88; r^2 = .78; p < .001
DRS(2003年~2011年)。WINS = .99*(WAR) + 52.1, r = .94; r^2 = .88; p < .001 両sampleの結果は非常に良く、これは、DRSのように非常に批判されている守備指標で、WARの主要な側面である統計が役に立たないのではなく、非常に高い相関と私が求めていたWINS = 52 + 1.0*WAR 逆行方程式がほぼ完璧だったことを示します。

WARは、あるシーズンに何が起こったかを記述するのに非常に良い仕事をしてくれますが、しかし、それは必ずしもあまり有用ではありません。将来のseasonの結果を予測する事は、以前に起こったことを説明するよりも重要(価値がある)である事がほとんどなので、私はシングルシーズンのWARの予測価値をテストすることにしました。

2006年から2011年までの30team(各season5team)を無作為に抽出し、前シーズンのWARを合計して、翌seasonの勝利数を予測しました。例えば、2011年のトロント・ブルージェイズのrosterの2010年の累積WARを計算し、その合計を2011年の実際の勝利数に逆行させるのです。

このモデルの重要な前提は、衰えた選手(結果 seasonで30歳以上)のWARを半分(0.5)減らすことと、rookie WARを代替レベルまたは0.0と仮定することです。ブレット・ロウリーのようなルーキーは、最初の大リーグで3.0勝以上のseasonを達成できるからです。しかし、1人のローリーに対して、1ダースのrookieがrookie campaignで代替レベルかそれ以下でplayしているのである。

予測年のWAR(例:2010年ブルージェイズ)が、結果年の勝利(例:2011年ブルージェイズ)を予測できるかを調べた結果です。

その結果は統計的に有意で、0.59というきちんとした相関がありました。この相関は、結果年の勝利数の分散のうち、前年のWAR合計が占める割合がわずか35%であることも意味している。また、線形回帰式は、予想されたWINS = 52 + 1*0WARにはほど遠いものでした。その代わりに、この方程式は、ほぼ64勝の切片を持ち、わずか0.68の傾きを持つ。

WARの記述力の高さを再確認するために、このsampleについて、80球団のoriginal sampleと同じように、結果年のWAR(例:2011年ブルージェイズ)と結果年の勝利(例:2011年ブルージェイズ)を回帰してみました。

この回帰の結果は、基本的に元の研究の結果と同じで、相関関係であるrは.91に留まり、線形回帰は、傾き1.02、切片51.93勝と、予想に非常に近いものとなった。

single season WARは、明らかに、これから起こる事よりも、起こった事を説明するのに適している。私は、一部のsabermetricsがSingle  season WARの結果をほとんど重視せず、信用しないようになっているという事実を強調し続けているが、同時に、この指標を過度に使用したり、過大評価したりするsabermetricsも多くいる。tradeや契約の分析で、ある選手が前年のWARに基づいて新teamで3.0~5.0勝の向上をもたらすという話を何度も読んだことがある。この結論は、ほとんどの場合、間違っている。例えば、こんな極端な例がある。

レッドソックスは、2011年シーズン前にカール・クロフォードと契約した。クロフォードは2010年に6勝(6.6WAR)以上の価値があり、多くの人がクロフォードは2011年にボストンで6勝の向上をもたらすと書いた。しかし、ご存知のように、クロフォードはソックスでかなり劣勢に立たされ、2011年 seasonは0を記録し、完全に代替levelのseasonとなってしまった。この例は、野球の予想が非常に難しいということを改めて示していると思う。

シーズンごとに、前 seasonに起こったことが、次の seasonでも間違いなく起こると言い切るには、あまりに多くの変動と不確実性があります。オリバー、PECOTA、ZIPSなどの重み付けされた予測システムは、1シーズンのデータよりも全体像を見て将来を予測する能力がはるかに高いです。

結論

実際、WARに含まれる特定の指標はsample数が少ないため、選手の真の才能Level、特に守備力を表すものではありません。この事実により、single seasonWARは個人の真の才能Levelを反映していないため、役に立たないという主張が多くなっています。

しかし、なぜ1シーズンのWARで、どんな選手の本当の才能のレベルが明らかになるのでしょうか?1シーズンの出来で どんな野球選手の本当の才能を暴くことができるのでしょうか?

決してそうではない。フルーク・シーズンは常に起こり、野球の素晴らしさの一部でもあります。

ある種の指標は真の才能を反映するものではないという意見が正しい一方で、single seasonの守備指標は文脈や縁の下の力持ち的なプレーの連続に大きく基づいているため、全く役に立たないという主張もあります。しかし、正直なところ、これはあらゆる野球統計に当てはまることです。ERAやRBIのような伝統的な統計、そしてwOBAやFIPのような高度な統計でさえ、大きな連続性と文脈の要素を持っています。結論
実際、WARに含まれる特定の指標はサンプル数が少ないため、選手の真の才能レベル、特に守備力を表すものではありません。この事実により、シングルシーズンWARは個人の真の才能レベルを反映していないため、役に立たないという主張が多くなっています。

しかし、なぜ1 seasonのWARで、どんな選手の本当の才能のレベルが明らかになるのでしょうか?1シーズンの出来で どんな野球選手の本当の才能を暴くことができるのでしょうか?

決してそうではない。フルーク・シーズンは常に起こり、野球の素晴らしさの一部でもあります。

ある種の指標は真の才能を反映するものではないという意見が正しい一方で、シングルシーズンの守備指標は文脈や縁の下の力持ち的なプレーの連続に大きく基づいているため、全く役に立たないという主張もあります。しかし、正直なところ、これはあらゆる野球統計に当てはまることです。ERAやRBIのような伝統的な統計、そしてwOBAやFIPのような高度な統計でさえ、大きな連続性と文脈の要素を持っています。

このシナリオを考えてみましょう。

選手A:キャリアで平均的な守備の選手が、ランダムに素晴らしい守備のシーズンを過ごす。
選手B:キャリアを通じて平均的なオフェンシブ・プレーヤーが、突如として派手なオフェンシブ・ナンバーを記録する。

選手Aのその守備的なシーズンのWARは、大多数から「役に立たない、正しくない」と否定され、彼の守備を測定するために使われている「悪い、または正しくないデータ」のために、彼のWARは無視されるでしょう。反対に、選手BのWARは厳然たる事実として受け入れられ、その数字はまぐれか「Breakout」キャンペーンとみなされる。これはあまり意味のないことです。

真の才能のレベルと勝利はどこから来るのかという誤解は、統計としてのWARの分析が崩れるところである。

最後の一文で、先ほど引用したキャメロンの引用に一旦戻ることになる。ここで、もう一回。

WARは完璧ではありません。しかし、既知の限界や、文脈上の状況が最終的な記録に与える影響のばらつきを考慮すると、勝敗を予測する上で非常に印象的な仕事をするのです。

この引用文は、私の主張と非常によく一致しているのだが、ひとつだけ表現を少し変えている。キャメロンは、WARは勝敗を「予測」する素晴らしい仕事だと言っています。この部分を私が思うに、こう言い換えてみたい。WARは、チームの個々の勝利がどこから来るかを説明するのに非常に素晴らしい仕事をする。

single season WARは、その名の通り驚異的な働きをしています。シングルシーズンWARは、勝利数、あるいは次のシーズンのWARを予測するために使用されるべきではありません。また、シングルシーズンWARは選手の真の才能を反映するものではありません。これは、この統計の解釈方法における最大の欠陥だと思います。もしWARが真の才能を反映するものであれば、すべての選手が同じWARを持ち、その才能が毎年チームにどれだけの価値をもたらすべきかを完全に包含しているはずです。

WARの様々な定義でも、「真の才能レベル」という言葉は出てきません。

-私たちTHTの定義は
(WAR)とは、選手の攻撃と守備の貢献度を組み合わせ、そのpositionの適切な代替Levelと比較する指標である。

-FanGraphsによるWARの定義。
WAR(Wins Above Replacement)とは、セイバーメトリクス野球界が、選手のチームへの貢献度を1つの統計にまとめようとする試みである。

-Baseball ProspectusによるWAR(P)の定義。
Wins Above Replacement Playerは、Prospectusが選手の総合的な価値を把握するための試みである。これは、打者であればプレータイム、ポジション、バッティング、走塁、守備、投手であれば役割、投球イニング、成績の質などを考慮することを意味します。プロスペクタスの定義では、このような選手で固められたチームは、50試合強の勝利を収めるとされています。

-Baseball-ReferenceによるWARの定義。
WARという枠組みの背景にある考え方は、ある選手が、その選手の代わりとしてチームが一般的に持っているものよりもどれだけ優れているかを知りたいということです。

WARとは、ある選手が、その選手の代わりとなりうる選手のbaselineに対して、どれだけチームに貢献した価値(WINS!)を示すものである、というのがconsensusになっているようです。WARは選手の真の才能レベルを反映するものではなく、個々の選手が実際のfieldでどれだけ勝利に貢献したかを記述するものであり、その面では目を見張るような効果を発揮します。

参考文献・資料
WARデータはすべてBaseball-Referenceの提供によるものです。

ジョージ・J・デュポール博士は、原著論文の共著者です

この記事が気に入ったらサポートをしてみませんか?