Linear Weights + BaseRuns = Good

2024年1月10日 20:44

前回の記事では、wOBAの現在の実装が、リーグの特性の変化により、四球、single、ホームランなどの価値を毎年変化させることを説明した。これは、あるeventの価値が、毎 seasonリーグ内の全チームで同じである事を意味するのでしょうか？リーグ内の全球場で？とんでもない。もしあなたが、高offense時代の弱いoffenseについて話しているのなら、弱いoffense時代の全体的な定数の方が、そのチームには当てはまるでしょう。しかし、標準wOBAは、特定のチームにおける特定の選手の走塁貢献を推測するためのものではありません。おそらく、典型的なチームにおける彼の確率的な生産性についてのもの、と言った方がより正確だと思います（パーク効果は考慮されていないので、正確ではありませんが...それはwRC+の方が当てはまるでしょう）。

ともあれ、トム・タンゴはこの限界に気づき、チームの得点によって値がどのように変化するかを示す表を作成した。彼は、デビッド・スマイス（David Smyth）のBaseRunsの公式を利用する事で、この「Linear weight 」（Linear weightの「必要な分派」だと彼は言う）のsystemを実現した。ちなみに、この式ではhome run batterは走者とはみなされない。理に適っているだろう？

Tangoは、BaseRunsが基本的なLinear weight system（および他のすべての失点推定システム）よりもチームの失点プロセスをうまく把握している事に気づき、様々な失点環境におけるBaseRunsの結果をLinear weightに変換した。具体的には、BaseRunsの計算式はteamが得点すべき得点を示し、各hitのLinear weightの値は、BaseRunsがその種類のhitをあと1本打った場合にチームが得点すると予想した追加得点数（各ヒットの種類の限界値）から求めた。以下は、彼の結果の基本をグラフにしたものである：

前回の記事の最後に掲載したグラフと数字が一致していないことにお気づきかもしれないが、これはアウトの値を引いていないからだ。また、前回の記事で私が話していたこと、つまり、各競技の得点の価値は、特にホームラン以外の競技の得点の価値が高いほど高くなるということも、ほぼおわかりいただけるだろう。

outといえば...
outの価値とは何だろうか？ outを扱うLinear Wateのversion（LWTS）では、 outのdefault値は約-0.29runだ。しかし、これは典型的なチームを基準にしたもので、かなり抽象的な概念で、「ありえたかもしれないこと」のコストに関するものだ。偉大な数学者でありファンク歌手でもあるビリー・プレストンがよく言っていたように、「nothin' from nothin' leaves nothin」（nothin'からnothin'はnothinを残さない）。仮に酷いteam（または選手）が outを取る事だけを期待できるのであれば、実際に outを取っても何も損失はない。 double playに打ち込んだり、進塁打でoutにしたり......それは事実上、誰かの四球やsingleなどの価値の一部を奪うので、少し違った形で考えなければならない。

とにかく、これがplateで outを取らなかった場合の価値を含めた表である：

outの価値は、1試合1失点で-0.06、1試合10失点で-0.594となり、傾斜が少し急になっていることにお気づきだろうか。

私は、このような安打の値の変化を、1試合あたりの得点という角度から見るよりも、出塁率（正確にはOUTにしない事）、追加塁打傾向、走塁の相乗効果という角度から見た方が、少しは分かりやすいと思う。この方法の方が、因果関係の順序が正しくなると思うし、そうでなければ循環にちょっと近すぎるような気がする（「再帰」でググってみてくれ......イタズラ好きな連中だ）。

塁に出て、その後OUTにされない打者の割合（私は「無死率」と呼んでいるが、ドジを踏まない出塁率と考えればいい）を考えると、1イニングに何人の出塁が期待できるか考えてみよう：

無死満塁と仮定すると、OBPが1.000に近づくにつれて、イニングあたりの走者は無限大に近づく。 graphを無限大で切ったのは、私のFanGraphs Community Researchの記事（1、2、そして特に3）を読んでくれている忠実な読者の皆さんには、すでに十分な終わりのないscrollをさせたと思うからだ...。

考えてみれば、チームのOBPが1.000に近づけば近づくほど、少なくともある点を超えれば超えるほど、出塁eventの価値は1に近づくはずである。常に満塁であれば、四球でさえ常に走者を出すことになり、常に後ろの誰かに追い込まれる。確かに、満塁でホームランを打てば4点は入るが、その場合、ホームランを打ったbatterの後ろにいるbatterが、いずれにせよ走者を出す事を考慮しなければならない。基本的に、これは打者の共産主義的Utopiaであり、あらゆる種類のhit、さらには四球さえも同等の価値を持つ。しかし、この方式が適用されるのは、team OBPが（長期的にはともかく）実質的に不可能なLevelであり、全員が現実的な能力よりもはるかに高いperformanceを発揮している場合だけである。

とにかく、もしあなたが疑問に思っているなら、この線は公式に従っている：イニングあたりの走者数＝3／（1-OBP）-3。これがなぜ理に適っているのか、おわかりいただけるだろう。

Rocket Scientistでなくても、1イニングに多くの打席があれば、多く得点が入る事はわかるだろう。 1イニングに6打席以上立てば、自動的に1点の価値がある（出塁は最大3回、 outは最大3回）。

さて、もし runnerがsingleからdoubleに伸ばそうとして投げられたり、盗塁しようとして投げられたりしたらどうなるだろうか？ 1イニングで1.000のOBPを記録しながら、合計で3打席しかできない......になりかねない。さらに、double playやトリプルプレーにも対処しなければならない（少なくとも、そのイニングのOBPが1.000になることはないだろう）。これらの出来事は物事をかなり複雑にする......だから、その小さな問題から目を逸らしたりするつもりはないが......真面目な話、この問題については今後の記事で取り上げようと思うが、おそらくきれいなものにはならないだろう。

次に、トム・タンゴが指摘した関係を紹介しよう：

R/OB（Runs per Time on Base）はR/(H + BB + HBP)と定義され、OBPとかなり強い正の相関関係がある。 R/OBは得点率であり、OBPが高いほど方程式の両方の部分が高くなるを意味している。少し代数を使えば、総得点はOB^2 / PAと強い関係があると言うことができる。具体的には、1.1 * OB^2 / PAは、得点との相関が0.929、1シーズン（1960-2012年）の平均絶対誤差が30点で、得点のかなりまともな推定値であることがわかる。

上記のグラフを修正し、代わりにOBPと（R - HR）/（OB - HR）を比較すると、HRを別個に考慮したBaseRunsスタイルでは、R^2は0.5181に跳ね上がる。この変換式は次のようになる：

R = 0.955 * ((OB - HR) * OB/PA + HR)

得点との相関は0.962、1seasonの平均絶対誤差は22である。 (MAEが22ということは、この計算式が1シーズンあたりの失点を平均22の範囲内で正しく推測していることを意味し、0.962という相関関係は非常に強い。）

David SmythのBaseRunsの詳細については、今がちょうどいい機会だ。簡単な計算式を言い換えれば、次のようになる：

走者数 = (OB-HR) * (走者進塁推定値) / (走者進塁推定値 + アウト) + HR

式の真ん中の部分は得点率を表している。つまり、先ほど私が本質的に示したことは、OBP（またはOB/PA）がBaseRunsの得点率コンポーネントの代用として非常にうまく機能するということだ。面白いでしょう？ BaseRunsは基本的に得点推定式の中で最も優れているが、得点との相関は0.973、MAEは18.2と、その式よりもほんの少し優れているに過ぎない。もちろん、私の計算式の精度が高いのは、OBPの高いチームはパワーも高いという傾向によるところもあるだろう。

BaseRunsの得点率の構成要素は、おそらく改良の余地がある唯一の要素であろう。簡単な計算式ではこうだ：

((1.4tb - 0.6h - 3hr + 0.1w)1.02)/ ((1.4tb - .6h - 3hr + .1*w)*1.02 + (ab - h)))

(ちなみに（AB-H）は前述のアウトス成分である。いずれにせよ、ご想像の通り、得点率はこの方程式で完全に解決されるわけではない。盗塁、捕盗、二塁打、投ゴロ、故意四球などを扱ったより複雑なバージョンもあるが、わずかな改善にしかならない。得点率の真実はもっと複雑なのだ。

つまり、BaseRunsの計算式は、あなたがおそらく知っているであろう他の失点推定式よりも、極端な失点環境に耐えることができ、それがTangoが1試合あたりの失点に基づく線形ウェイトを導き出すために使用した理由である。しかし、1試合あたりの失点が増えたからといって線形ウエイトが高くなるわけではなく、より優れた相乗効果のあるオフェンスが両者の根本的な原因なのだ。したがって、私たちが望むのは、次回はやり直し、これらの相乗効果をより考慮に入れることである。そうすることで、全体が部分の総和よりも大きく（あるいは小さく）なることを理解すれば、リニアウェイト、ベースラン、そしてそれらの組み合わせを超越することができる。次回は、その方法を少し紹介しよう。

この記事が気に入ったらサポートをしてみませんか？