シーズン表記の類似性スコア

要約版

従来のSimilarity Scoresに、ビルが「Seasonal Notation」と呼んでいた選手のstatsを162試合あたりで表現したものを組み合わせています。

  • 私の考えでは、殿堂入り候補者は、career全体、Peek、個々のseasonのImpact、成功したチームへの貢献、賞や栄誉、milestone、記録など、考慮すべき多くの潜在的な領域を持っています。

Seasonal Notation Similarity Scoresは、選手のperformanceのlevelや質をある程度知れるが、どれだけ多作であったかを知る事はできません。また、私の例の多くは短いcareerは、当該選手が長い衰退期を経験しなかったため、162試合あたりの文脈で表現される事で「恩恵」を受ける事が多い。

例えば、ピート・ローズの season表記やrate stats(打率、OBPなど)が苦しいのは、 playをし続けたから。もし彼が数年早く playをやめていたら、彼のrate statsとSeasonal Notationの数字はもっとよく見えたでしょうが、その場合、彼が現在持っている「bulk」の合計を楽しむ事もできなかったでしょう。諸刃の剣。そして、殿堂入りは、より長いより印象的なcareerを持つ者を好む傾向。

背景

Similarity Scoresの概念が好きで、このtopicは私にとって身近。普段の仕事では、需要計画や予測に携わっていますが、販売するアイテムや商品Categoryを計画・予測する時に、「類似性」という概念が登場。新商品は、既に存在する別の商品と類似しているか?どのように似ているのか?違うのか?似たような商品Categoryでありながら、商品の主要な特徴に違いがあるのか?比較される商品は異なるbrandですか?価格は異なりますか?Promotionが違いますか?それらはどのような「売上曲線」を描くのでしょうか?売上は安定しているのか、それとも時期によって大きく変動しているのか?類似点にはどのような意味があり、相違点にはどのような意味があるのでしょうか?
従来の類似性scoreは、それほど重視されていないのではないでしょうか。ビルは約40年前導入し、人々は殿堂入りの議論も含め、あらゆる種類の比較にこれを使用しています(これに限定されていない)。私は、選手の比較方法において大きな前進だったと思います(選手を比較のが好きなのです!)。しかし、(ビルを含む)誰もが認めているように、これを使うには多くの注意点があります。Similarity Scoresは、基本career statsのcategoryを使用しており、時間や場所によって調整されていないため、ホームランはいつどこで打たれてもホームランであり、3割の平均は1930年代に生まれたか1960年代に生まれたかにかかわらず同じに扱われる。また、打者のカテゴリーは、ポジション調整はあるものの、厳密にはオフェンスベースである。

類似性スコアは、私たちの概念ではありません。ビル・ジェームスが1980年代半ばに導入したもので、我々は彼の著書『栄光の政治学』(p.86-106)からその手法を引用しています。ある選手を他の選手と比較するために、1000点から始めて、各選手の統計的な差異に基づいて点数を引きます。

打者
20試合出場の差で1点。
75打席の差で1点。
10得点の差で1点。
15安打の差で1点
二塁打5本差で1点。
三塁打4本の差で1点。
本塁打2本の差で1点。
10本塁打の差で1点。
四球25個差で1点
三振150個差で1点。
20盗塁の差に1点
打率.001の差につき1点。
打率0.002の差で1点。

重要なのは、従来のSimilarity Scoreは、選手のキャリアの統計値を用いている。注目したいのは、「機会あたり」、162試合あたりで選手を比較。打席数を使う事もできましたが、162試合に全てを当てはめた。そして、最も興味深い結果は、キャリアが短かった選手のもの。

簡単な例を2つほど、横から。

アル・ローゼンは、なぜか私にとって魅力的な選手で、非常に短いキャリアに多くのことを詰め込んだからでしょう。少し箇条書きにします。

  • ローゼンは10シーズンしか playしておらず、そのうち最初の3シーズンはクリーブランドのオールスター三塁手、ケン・ケルトナーの後ろに控えていたため、短いコーヒーを飲む程度しかできませんでしたから、実質7シーズン、しかも良いのは5シーズンだけでした。

  • ローゼンがようやくチャンスを得たとき、彼は最大限に活用した。この記録は、1987年にマーク・マグワイアが49本のホームランを放つまで続いた。

  • 1953年には、43本塁打、145打点、115得点、打率.613、OPS+180、367塁打というリーグトップの数字をマークし、三塁手として最高の seasonを送った。また、打率は.336で、ミッキー・バーノンの.337に1点差で打点王(と三冠王)を逃しただけ。更にRWAR10.1を達成し、これは現在でも三塁手が10.0以上のWARを達成した唯一の例。ローゼンは満場一致のMVPに選ばれた。

  • 1954年、ローゼンはオールスター史上最高の個人成績を収め、3打数4安打2本塁打5打点1四球を記録した。2本塁打と5打点は、all-star game史上、1試合での最多タイ記録である。

ローゼンはまた、ヤンキース、アストロズ、ジャイアンツの中心として、選手としてのcareerを概ね成功させたと、多くの人が認めるところであろう。
とにかく、ここにアル・ローゼンのStats lineと、伝統的な類似性スコアによる彼の上位5人のコンプがあります。

ローゼンはcareerが短かったので(careerの最初の数年間をケン・ケルトナーの後ろで過ごし、その後背中の問題で早く引退した)、彼に最も似ていると考えられる選手は、当然、彼のcareer statsに近い位置に並ぶcareerの長さが似ている選手たち。
しかし、これらはローゼンが思い起こさせるようなタイプの選手ではない。まあ、レンドンはちゃんとしたCOMPだと感じるが、彼もstatsが流動的な現役選手だ。ローゼンはホーナーやハートよりも全体的にかなり良かったと思う。ハミルトンとケラーは良い選手だったが(そしてケラーはおそらくローゼンよりも全体的に良い打者だったと思う)、彼らは外野手だった。だから、ローゼンがどんな選手だったかを捉えるという意味では、少し物足りない感じがします。

もう一つの例

これは、ドジャース殿堂入りしたロイ・カンパネラのStats lineと、従来の類似度スコアによる彼の上位5人のCOMPです。
つまり、カンパネラと似たようなcareer打撃成績を持つ選手が、カンパネラのcareer打撃成績に大きな影響を与えたのは2つある。初期にニグロリーグで過ごした時間(8年間だが、記録されている試合数はわずか214)、そして1958年 seasonの前の麻痺による怪我で残り時間が少なくなったため、彼の成績は酷く低くなってしまった。結果、カンパネラは約9 season分の試合しかしていない。
このように、素晴らしい選手ではあるが、カンパネルラを彷彿とさせる選手ではないのだ。

approach

季節表記類似度スコアの仕組みを考えるにあたり、従来の類似度スコアからいくつかのCategoryを残し、他Categoryを削除することにした。
出場試合数は、162試合あたりで表現しているので、全く必要ありません。また、打席数も、162試合あたりの文脈ではあまり価値がないように感じたので、廃止しました。
また、安打、二塁打、三塁打、三振も不可欠とは思えなかったので排除しました。三振は残してもよかったのですが、時代とともに変化しているので、全員の数値を調整したり、指数化したりしなければならないような気がしましたし、このversionをかなりsimpleにしようとしていたので、この時点で削除することにしました。

そこで、originalのSimilarity Scoreの方法論から、7Categoryを残しています。

  • ホームラン数

  • 得点

  • RBI

  • 四球

  • 盗塁数

  • 打率

  • 長打率

最初の5つは「162試合あたり」に調整され、打率と長打率はそのままです。

何を追加するのか?

OBPは含まれるべきだと思ったので追加した。更に、最新指標、つまり状況を考慮した指標が役に立つかもしれないと以下を加えた。

  • WAR(162試合あたり)

  • dWAR (162試合あたり)

  • OPS+

これで、13categoryではなく、11categoryになりました。10の方が納得のいく数字だったが、気にしない。
さて、dWAR(defence WAR)とWARが重なる部分がある事は承知している(WARは本来、打撃、走塁、守備を網羅した選手価値の合計であり、dWARもWARもposition調整を組み込んでいる)。また、誰もがdWARという指標に納得しているわけではないが、最終的にこの2つを維持する事にした。WARは総合的価値の良い近似値であり、dWARは少なくとも守備の価値を定量化に使えるものなので、どちらも何かをもたらしてくれるように感じましたが、わざわざ別の指標としてoWAR(攻撃的WAR)を持ち込む事はしませんでした。
dWARを入れたもう一つの理由は、このSimilarity Scoreは完全に同じ主要なpositionの選手を比較するものにしようと思ったからです。つまり、従来のSimilarity Scoreで行われていたようなposition調整はしていません。私は、Similarity Scoresがpositionを無視して生成されることを可能にする私のspreadsheetの「switch」を考え出したが、そのoptionでは、私はdWARを取り除くことができます。ほとんど、私は同positionの選手に焦点を当てるつもりです、それは私が「類似性」として考えるものの大部分であると思うからです。誰もがこれに同意するわけではないと思いますし、ほとんどの場合、選手の「主要な」positionはその選手が playしたものだけではないことも承知していますので、dWARは完璧に活用できる指標ではないかもしれませんが、これが私のとったアプローチです。

次のSTEPは、各categoryの違いに対するペナルティを設定する事でした。あまり詳しい説明は省きますが、各categoryの値の範囲、各categoryが使用する尺度、適用されるPenalty pointのroll-upをもとに、納得いく結果が得られるまで、ペナルティを弄り回しました。
下の表は、Penalty pointの数値のほとんどが、従来のSimilarity Scoreとは大きく異なることを念頭に置いてまとめたものです。なぜなら、私たちは162試合ごとの数値を扱っているので、比較しているdataはcareer totalよりもはるかに小さなscale(より小さな差)であり、各unitの差に対するペナルティの相対的な大きさは、従来のSimilarity Scoreとは異なる大きさを反映していなければならないからです。

Category

Penalty for Difference

Home Runs per 162 games 2 points for each HR per 162 games
Runs per 162 games 1 point for each run per 162 games
RBI per 162 games 1 point for each RBI per 162 games
Stolen Bases per 162 games 3 points for each stolen base per 162 games
Walks per 162 games 1 point for each walk per 162 games
Batting Average 1 point for each .001 difference
OBP .75 points for each .001 difference
Slugging Pct. .5 points for each .001 difference
WAR per 162 games 10 points for each 1.0 WAR per 162 games
dWar per 162 games 4 points for each 0.1 dWAR difference per 162 games
OPS+ 1 point for each point difference

繰り返しになりますが、これらのPenaltypointに魔法のようなものはなく、私が妥当だと思う結果が得られるまで遊んでみただけです。きっと、もっと改良できるはずです。

OK。これで十分なsetupができたと思います。では、実際に使ってみましょう。
「興味深い」例のほとんどは、ある種のcareerが短い選手であることが多いようです。なぜなら、season表記で表されたstatsを見る事で利益を得る事ができるのは、そういった選手たちだからです。もちろん、そのような選手には、選手の成績に影響を与える「長い」衰弱期がないという利点があることは事実です。私はその効果を十分に理解しています。

いくつか注意点があります。

  • 各表には、計算に含まれる各categoryのstatsを記載するつもりです。

  • リストはスコアの降順でTOP10のコンプを表示します(比較されるPlayerが最初に表示され、次に1位、2位のコンプ、といった具合に表示されます)。

  • "SN "は、"Seasonal Notation "の略語です。

  • 特に断りのない限り、career通算1,000試合以上出場し、同じ「主要」positionをplayしていると分類される選手のみを比較対象にしています。

  • また、career game数は比較対象外ですが、各選手のcareerの長さを考慮し、情報欄としてキャリアゲーム数を記載することにしました。しかし、これらの例の多くで、私は比較的短いキャリアを送った選手を使っているので、これはそのことを思い出させ、比較を視野に入れておくためのものです。

  • 最後に、その選手の現在の伝統的なSimilarity Scoreのトップ10に入る人がいれば、その順位を選手名の横の括弧内に入れることで、キャリアとシーズン表記のどちらを見ていても、どの選手が似ていると言えるのかが分かるようにしています。

まず、ロイ・カンパネラに話を戻そう。

つまり、カンパネラの伝統的コンプのトップ10に入っていた4選手が、シーズン表記のトップ10にも入っていることがわかる。カンパネラの伝統的コンプのトップ2(ロペスとマッキャン)はまだリストに入っているが、かなり下の方におり、ハートネットは少し上の方、ポサダはほぼ同じである。

大きな違いは、カンパネラの上位4人のコンプがすべて殿堂入りしていること、そして1位のコンプは同世代で1950年代に3度のMVPを獲得したヨギ・ベラで、これはかなり満足と言わざるを得ません。 そして、ご覧の通り、ほとんどのカテゴリーで両者は遜色なく、カンパネラはOBP(と高い四球)とSlugging Percentageが少し良く、dWARが少し高く、ヨギは(もちろん)多くのキャリアゲームの数字を持っています。しかし、162試合あたりの成績で見ると、両者はかなり近い。

あなたがどう思うかわかりませんが、これは私にとって非常に満足のいくリストです。先に述べたような理由が多いので、カンパネラは他の名捕手と比較されると苦戦することが多い。たとえば、JAWSではカンパネラは17位だ。しかし、これは不満なのではありません......なぜ彼がこのようなランキングで低いのか、誰もが認識していますし、私たちは適切な調整を行なっています。公式に捕捉された彼のキャリア通算試合数は約1,400試合しかなく、相対的に低い。でも、やはりその理由はわかっている。

カンパネラについて考えるとき、私は彼を歴代捕手のトップ10、もしかしたらトップ5にも入るかもしれない、何が重要か、必要な調整をどう行うかという視点次第で。しかし、彼の最高のコンプは、ロペス、マキャン、クーパー、トゥロウィツキーではなく、ベラ、ベンチ、ディッキー、ハートネットのような選手であるという事実が好きです。

そうですか。アル・ローゼンを見直すのはどうだろう?

ローゼンの以前の1位コンプ(ボブ・ホーナー)はトップ10から落ちました(現在18位まで落ちています)。他の2人(RendonとThompson)はまだトップ10に残っています。ローゼンの1位はチッパー・ジョーンズになりました。

今、私はこう言うでしょう。チッパーは1番のコンプだが、チッパーの方がまだいいし、チッパーは上記のほぼすべてのカテゴリーで優位に立っている。チッパーの方がシーズンベースでは優れているし、キャリアでは彼の方が2.5倍長いので数年先を行っている。しかし、ローゼンは162試合あたりで30HR、94RBI、91四球、137OPS+、162試合あたりのWARが5.0という数字を残しているのだ。これは、かなり良いボールプレーヤーです。

繰り返しになりますが、Similarity Scoreでよくあるように、自分と最も似ている選手でも、自分より優れた選手がいることがあります。そしてもちろん、チッパー・ジョーンズのすぐ後の選手は、ドナルドソン、ライト、レンドン、グラウスといった選手たちです。ドナルドソンは(ローゼンと同じく)MVPを獲得し、他にも上位入賞を果たしていますし、ライトもレンドンも上位入賞しています。 このポジションの超エリート(ブレット、マシューズ、ジョーンズ、サント)と、かなり良かったがもっと短い期間だった人たちが混在しているのが面白いところです。

しかし、このリストは、ローゼンが実際に playしていた時の選手の質を、従来のコンプリストよりもよく表しているような気がするのです。私は彼を殿堂入りさせようと思っているわけではありません-彼は非常に短いcareerでした。しかし、彼はそこにいる間、非常に良い選手だった。

他に誰に目を向けることができるでしょうか?ジャッキー・ロビンソンはどうでしょう?

ロビンソンの伝統的なSimilarity ScoresのTOPCOMPは、ジョージ・グランサム、ダニエル・マーフィー、フレディ・リンドストローム、エドガルド・アルフォンソ、デニー・ライオンズです。 リンドストロムは、ロビンソンの伝統的なコンプリストのトップ10の中で唯一の殿堂入り選手です(ホセ・アルトゥーベは現在8位に座っていますが)。グランサムはまだリスト入りしているが、事実上、殿堂入り選手ばかりになってしまった。

さて、カンパネラと同様、ロビンソンに関しても、従来のSimilarity Scoresの限界を理解しています。ロビンソンはMLBでのcareerが非常に短く(10season)、ドジャースでデビューしたのは28歳になってからなので、careerの数字は彼の真価を控えめにしているのです。JAWSでは10位と、額面通りでも十分印象的だが、彼はそれ以上だ。ロビンソンは二塁手の中でcareerWARは16位だが、WAR7(上位7season)では6位だ。ロビンソンはこのpositionでは間違いなくTOP5に入る偉大な選手だった。彼のcareerの短さが、従来のTOP10コンプがあまり印象的でない理由の大きな部分である。

とにかく、Seasonal Notation Similarity Scoresは、ジャッキーがいかに偉大であったかを示しており、より印象的なCOMPのlistを得ることができるのです。彼のWAR/162は7.3であり、ロジャース・ホーンズビー(9.1)を除く、1000試合以上出場したすべての二塁手よりも高い値です。また、彼の更新したトップ10コンプリストは80%が殿堂入り選手であるにもかかわらず、Similarity Scoreの数値が比較的高いのはチャーリー・ゲーリンガー(881)だけです。両者はそれなりに似ていますが、ロビンソンの方がWAR/162が多く、162あたりの盗塁数が多く、守備の量的な価値が高いことが挙げられます。ゲーリンガーは偉大な選手で、私のお気に入りの一人ですが、ロビンソンの方が優れた選手だったと思います。

もう一人、キャリアが短かった選手はどうでしょうか?ドン・マッティングリーを見てみましょう。

私がMattinglyを取り上げた理由の一つは、彼の1位のコンプが、私が出会った中で最も高いSeasonal Notation Similarity Scoresを持っているからで、それはなんと965のRipper Collinsである。コリンズは、1930年代の有名なセントルイス・カージナルスの「ガスハウスギャング」のメンバーでしたが、ディジーやダフィーディーン、フランキー・フリッシュ、ペッパー・マーティン、ジョー・メドウィック、レオ・デュロチャーといった、そのチームのもっと記憶に残るキャラクターの陰に隠れてしまうことが多いような気がします。 ギャングの最も有名なシーズン(1934年)、コリンズはおそらくチームで最も価値のあるポジションプレーヤー(35HRでリーグトップタイ、総塁打とスラッギングでリーグトップ)であり、おそらくディーン(有名な30勝)に次ぐ全体2番目のプレーヤーであっただろう。しかし、コリンズは最終的に100試合以上出場したシーズンがわずか7シーズンと、かなり短いキャリアを送った。

とにかく、コリンズはマッティングリーと総合的に非常に強い勝負をしており、個々のカテゴリーでは大きな差はない。Mattinglyのトップ・コンプの10人全員が900点以上である。

2人の選手(GonzalezとCooper)はMattinglyの従来のSimilarity Score comp listから引き継いでいます。3人のコンプは殿堂入りしているが、トーレは監督としての成功の方が大きく(選手としても優秀だったが)、マレーとペレスはともにキャリアがはるかに長い。

チャーリー・ケラーは、記事の序盤で出てきた、キャリアは短いが偉大な打者である。彼をツールで調べてみましょう。

ケラーの従来のトップ3コンプは、ジョシュ・ハミルトン、ケビン・ミッチェル、アル・ローゼンだった。ミッチェルは、ケラーの伝統的なリストから生き残る唯一のトップ10コンプであり、彼は9位でダウンしている。私はここで非常にトップ4が好き - ケラー、バークマン、ジョンソン、キナーすべて同じ型のように見える - 打率、OBP、POPの良い組み合わせ、および162試合出場あたり100ラン/ RBI /WALKを生成、本当に貴重な攻撃的な武器です。キナーは7 season連続で本塁打王を獲得したことで有名になったので、他の選手とは一線を画していますが、皆、同じようなタイプに見えます。

エリック・デービスはどうだろう。1、2 seasonの間、私が見た中で最もexcitingな選手だった。

まとめ

さて、例を挙げればきりがないのですが、お分かりいただけたでしょうか。私はまだ投手について同じようなものを考えてみた事はありませんが、実りあるものになりそうなら、その道を歩むかもしれません。
もし、この方法論で検証してほしい選手がいれば、コメントで送っていただければ、喜んで結果を共有させていただきます。あなたが提案したどのpositionの選手に対しても、私は結果を出すことができるはずです。

お読みいただきありがとうございました。

ダン

この記事が気に入ったらサポートをしてみませんか?