WARの最大の問題

私が6歳だった頃、おそらく1956年の真夏だったと思うが、父の経営する小さな町の小さな会社の正面のガラス張りの窓から外を見ると、そこには小麦を積んだ農家のトラックが、グレイン・エレベーターに向かうために長い列を作っていた。 グレイン・エレベーターは1ブロック先にあり、小麦の配達を待つトラックがいるのは普通だが、これほど長い列ができるのは普通ではなかった。 私は父か誰かに何が起こっているのか尋ねた。父は、ホイト(同じ規模の近隣の町)の秤が非常に厳重なのに対し、ここの秤は少し緩く動いていて、その噂が広まったのだと言った。 このような表現は、大人になってから何度も耳にしたが、その意味を本当に理解したのは、少なくとも25年経ってからだった。

比較デリバティブの問題だ。 比較デリバティブの問題はどこにでもある。 彼はアクチュアリーで、比較デリバティブの複雑な問題を、ヨーロッパに住んで働いている彼の上司に説明しようとしていた。 比較デリバティブの構成要素のひとつを少し変えただけで、数百万ドルの予想利益が消えてしまったのだ。 もちろん彼らもアクチュアリーなのだが、問題をなかなか理解できなかった、あるいは理解させることができなかったのだ。

比較デリバティブの問題は、1%の誤差が20%の誤差、50%の誤差、90%の誤差、あるいは200%の誤差として現れる可能性があるということだ。 私はこのことを簡単に説明する方法を探し続けているが、なかなか見つからず、まだ見つかっていない。そこで、穀物エレベーターに小麦を売る農家の話に戻ろう。

穀物エレベーターに穀物を売るために、農家は秤の上に乗り、穀物を積んだトラックの重量を量る。 その後、彼は秤を降り、穀物を降ろし、再びトラックの重量を量る。 もちろん、違いは穀物の重量だ。 農家は穀物の重量に基づいて支払いを受けます。

問題は、わずかな割合のミスが農家に大きな結果をもたらす可能性があることだ。 州の検査官が定期的にエレベーターを訪れ、秤が正確であることを確認する。 自分の体重を量り、秤から降り、また秤に乗る。2回目も1回目とまったく同じ重さになるとは限らない。

それなりの大きさの農業用トラックは、おそらく空荷で15,000ポンドはあるだろう。 5,000ポンドの小麦を運ぶかもしれない。彼らはポンドで計るのではなく、ブッシェルで計るのだが、ここではポンドの話をしよう。 小麦1ポンドの価値は約10セントだと思うが、1956年には約2セントだった。 5,000ポンドの小麦は約500ドルの価値がある。

ただし、そうとは限らない。 現場には小麦(またはトウモロコシなど)の水分成分を検査する装置があり、小麦の検査結果が87%だった場合、農家には500ドルではなく435ドルが支払われる。 水分は支払われず、乾燥重量で支払われる。 つまり、3つの変数がある:

これらはすべて推定値です。 「重量」は正確な測定が可能な厳然たる事実です。 穀物の場合、売値は確かな事実である。 WARでは、どれも厳然たる事実ではありません。 すべて推定値に過ぎないのです。 選手のRun Contributionは推定値です。 Replacement Levelの選手のRun Contributionは、かろうじて推定値と言えるもので、むしろでっち上げの数字に近い。 RunのWin Valueは推定値です。 つまり、この問題はGrain Elevator取引よりもWARの方がはるかに深刻なのです。なぜなら、ここでは確かな事実ではなく、推定値を扱っているからです。

ここで、各STEPで3%の誤差があり、その選手が有利になると仮定してみましょう。

3%のエラーで、その選手のWARは2.3まで上がります。 しかし、その選手にとって不利なエラーが3%あったとします。

3%の誤差が3回発生すると、その選手のWARは150%も変動する。 これがWARの基本的な問題点です。 つまり、私たちはあらゆることについて議論しているのです。 クラッチデータを得点に含めるべきか、フィールディングの推定値が外部証拠と整合しているか、などです。 しかし、本当の問題はそれです。

  1. 推計は決して正確に正しい物ではなく、常に単なる推定に過ぎない

  2. WARは、推定値を処理するために、不正確な物を非常に大きくする可能性のある分析systemを使用しています。

WARには、得点の推定値、fieldingによって節約された得点推定値、シングル、ダブル、トリプル、ダブルプレーの得点推定値、パーク効果の推定値など、何十にも及ぶ内部推定値があります。

問題はそれ以上に深刻だ。
まず第一に、先ほど申し上げたように、代替水準は実際には推定値ではなく、単なるでっち上げの数字。 20%、25%、それ自体で、拡大する前に外れている可能性があります。

しかし、それも問題を控えめにしています。
第2に、WARは代替水準が一定であると仮定しているが、一定ではなく、変動する。 あるチームでは、外野手が怪我をしても、先発と同程度の能力を持つ4番手外野手がいるため、あまり問題にならない事もあります。 他のチームでは、4人目の外野手がパジャマの着ぐるみなので、とても重要なの。 実際の代替レベルは、その土地特有のものです。 この場合、代替レベルが実際にどの程度であるかを推定するのではなく、WARは単にそれが常に同じであると仮定しています。 小麦農家の例えに戻ると、これはトラックの重量がすべて同じであると仮定しているようなものです。 これは大きな誤りにつながる。

また、WAR systemの一つは、投手が実際に許した点数ではなく、三振や四球やホームランを基に許したはずの点数を使う事によって、投手に別の潜在的エラーを導入しているのです。
このシステムは、「この投手は実際には100点を許したが、奪三振と四球が本当に良かったので、87点しか許さなかったように扱う」と言う。 これは、推定値を厳密な事実に置き換えることで、さらに別の潜在的エラーを導入している。
1966年のアメリカン・リーグの最優秀選手は、三冠王で満場一致のMVPに輝いたフランク・ロビンソンではなく、ERAがリーグ平均を大きく下回る投手のアール・ウィルソンだったという結論になるのは、そのためかもしれません。 そして、WARを信じる人々はこれを見て、"ああ、そうか、数字がそう示すのなら、そうなんだ "と言うでしょう。
むしろ、"そんなことを言うのは本当にバカだ "と言うべきでしょう。

いいですか、私はWARに価値がないとか、ある程度信頼できるWARのシステムが開発されないとか言っているのではありません。

私が言っているのは

  1. 現在あるWAR systemは、多くの場合概ね正確だが、全く信頼性がない。

  2. 信頼できない主な理由は、特定の要素に誤差があるためではなく、比較微分の計算において、誤差合計が大幅拡大の可能性がある。

  3. 推定に基づく比較デリバティブの結果を信頼する事は、その推定が極めて正確でない限り、非常識である。

  4. sabermetricsがperformance評価の全要素を正確に推定できるようになるまでには、数十年かかるだろう。 

しかし、それも問題を控えめにしています。 WARは代替水準が一定であると仮定しています。 それは一定ではなく、変動するものなのです。 あるチームでは、外野手が怪我をしても、先発投手と同程度の能力を持つ4番手外野手がいるため、あまり問題にならない。 他チームでは、4番手外野手がパジャマの着ぐるみなので、とても重要なのです。 実際の代替レベルは、その土地に特有のものです。 この場合、代替レベルが実際にどの程度であるかを推定しようとするのではなく、WARは単にそれが常に同じであると仮定しているのです。 小麦農家の例えに戻ると、これはトラックの重量がすべて同じであると仮定するようなものです。 これは大きな誤りにつながる。

また、私が理解している限りでは、WARシステムの一つは、投手が実際に許した点数ではなく、三振や四球やホームランを基に許したはずの点数を使うことによって、投手に別の潜在的エラーを導入しているのです。 このシステムは、「この投手は実際には100点を許したが、奪三振と四球が本当に良かったので、87点しか許さなかったように扱う」と言うのです。 これは、推定値を厳密な事実に置き換えることで、さらに別の潜在的なエラーを導入していることになります。 1966年のアメリカン・リーグの最優秀選手は、三冠王と満場一致のMVPを獲得したフランク・ロビンソンではなく、ERAがリーグ平均を大きく下回る投手、アール・ウィルソンだったという結論になるのは、そのためかもしれないのです。 そして、WARを信じる人々はこれを見て、"ああ、そうか、数字がそう示すのなら、そうなんだ "と言うでしょう。むしろ、"そんなことを言うのは本当にバカだ "と言うべきでしょう。

いいですか、私はWARに価値がないとか、ある程度信頼できるWARのシステムが開発されないとか言っているのではありません。 私が言っているのは

  1. 現在あるWARのシステムは、もちろん多くの場合概ね正確ではあるが、全く信頼性がないこと。

  2. 信頼できない主な理由は、特定の要素に誤差があるためではなく、比較微分の計算において、誤差の合計が大幅に拡大される可能性があるためである。

  3. 推定に基づく比較デリバティブの結果を信頼することは、その推定が極めて正確でない限り、非常識であること。

  4. セイバーメトリクスがパフォーマンス評価のすべての要素を正確に推定できるようになるには、もしそこまで到達したとしても、数十年はかかるだろう。 私が生きている間は、間違いなくそこに到達することはないでしょう。

  5. 記事の冒頭で述べたように、比較誘導体の問題は我々の文化に偏在している。 政治的な世論調査でもこの問題が見られる。 ある候補者が、ある世論調査では42%、次の世論調査では47%だったとします。 Networkはこれが大きな意味を持つと考えるだろうが、「5%の上昇」は2つの世論調査を基にした比較誘導体であり、どちらもそれ自体には信頼性がないのである。 ダウ・ジョーンズが25ポイント「上がった」のか、25ポイント「下がった」のか、これも比較の派生物である。 ニュースネットワークは、なぜ上がったか、なぜ下がったかの説明をでっちあげるだろうが、それは純粋なフィクションであり、ソフトな数字の比較誘導体に過ぎないのである。

ある規模の確かな数字に基づくものであれば、比較誘導体にはもちろん意味がある。 WARは「利益」に類するもので、「利益」は比較のための微分である。 だから、会計士は帳簿をごまかして、会社の利益率が高いように見せたり、低いように見せたりする事ができるのです。 10年前に100万人だった故郷の人口が、今は120万人だとしたら、それはそれで意味のある事実です。 しかし、基本的な事実はやはり "私の街の人口は120万人 "であり、"私の街の人口は+20万人 "ではない。 WARの問題点は、基本的事実を何の認識もなく捨て去り、明文化されていない数字と架空の線との比較で価値を述べるよう促している点にある。WARという言葉は、「WAG」に置き換えるべきでしょう。 WARは実際の測定値ではなく、単なる野次馬的な推測に過ぎないのです。

選手の本当の価値は、代替選手よりどれだけ優れているかにあると言ったのは、私が最初だった。 他の人たちは、その考えを取り入れて暴走し、誠意と善意を持ってそれを実行したのです。 しかし、当時私が言うべきだったのは、あるいは私がこれを言ったのに人々が無視しただけなのかもしれませんが、私は知りません。"計算に意味を持たせるために、そのすべての要素を正確に測定は不可能。"という事です。 当時、その後何年も言わなかったのは、他人の砂場に土を蹴り込むような事をしたくなかったから。 しかし、正直、このようなプロセスを想定を人々が止めない限り、選手価値を正確に測定できないだろう。

この記事が気に入ったらサポートをしてみませんか?