見出し画像

ポケカを本気で統計してみる(分析編)

検証

前回作った9万件の対戦データを使っていろいろ集計してみました。

ここまでやったらなら分析もRでやれよ、と思いましたがスプレッドシートの方が慣れているし早そうなのでこっちでやりました。

まずは基本情報です。

カビゴンの勝率がすごいですね、おすぎさんのデータ集計結果でも68%ぐらい勝っていたので、実際にJCSでもこれくらい猛威を振るっていたのかもしれません。
JCSのルール正確に把握していないのですが、CLでDay2いける基準の7勝以上しているデッキの10%以上がカビゴン、カビゴン使用者の約4人に1人がDay2に行っているという結果でした。
マスター優勝の方もDAY1カビゴンだったらしいですが、実際に参加していた方の感覚がどうだったのかが気になります。

次に目を引いたのがタケルライコとルギアの7勝以上の多さです。
これ自体は皆さんの感覚と一致していると思うのですが、どちらのデッキも勝率が50%を超えています。

元々のこのシミュレーションを行ってみようと思ったきっかけが、おすぎさんのレポートでこの2デッキの勝率が50%を割っており、そこに何らかの原因があるのではないかと思ったことがきっかけでした。

実際、今回のシミュレーションにおいても元々の使用率に対して、7勝以上の使用率が増えているデッキタイプを見ると、基本的には平均勝率が50%を超えるデッキが数を増やしていて、平均勝率が50%を割るデッキは数を減らしています。
(当たり前と言えば当たり前の結果ですが)

全体の使用率⇒7勝以上したデッキタイプの割合で
増えているデッキタイプと減っているデッキタイプ

このような差が生まれた原因にはいくつか可能性があります。

  • Xに投稿していないルギア、タケルライコの勝者が一定数いる

  • 今回のシミュレーションのマッチング形式の問題

  • プレイングスキル等他の要素の影響

  • マッチごとの勝率の変化

一つ目は勝敗のデータソースをX投稿から取っている以上起こり得ることですし、検証のしようもありません。データソースが少ない場合、使用者が少ないデッキの場合は起こりやすいですが、今回は一番使用者が多いデッキの一つなので可能性が低いようにも思います。

二つ目は今回のシミュレーションは各対戦完全にランダムにマッチングするような方法で行っています。いわゆるガンスリンガー形式で9戦行ったような感じですね。
ただ実際には勝ったプレイヤー同士が対戦するスイスドロー形式で行われています。
その理由はスイスドロー形式にしようとすると、1戦ごとに勝ったプレイヤーを抽出し、それ同士をマッチングさせ、というプログラムを組まなければならずちょっと今の実力ではそこまで行うのは難しいと思ったからです。
これは勝敗のばらつきには多少影響が出る可能性はありますが、平均勝率には影響しないように思います。

3番目はありそうですがこのデータ解析のやり方ではちょっと検証のしようはなさそうですね。

4番目は今回デッキタイプごとの勝率のパラメーターは、変幻の仮面が出てから直近までのデータを使わせていただいています。発売初期とJCSが行われた時期では研究も進み、その勝率に変化が生じている可能性はあります。

結論から言うと、「よーわからん」という感じです。


今回のテーマでもある「ばらつき」についてもうちょっとだけ検証してみようと思います。

まず勝数の平均と標準偏差の一覧を標準偏差が高い順から出してみます。

標準偏差とは、平均値に対してどの程度離れているかの尺度です。
この表のルギアでいえば、9戦して平均4.74勝してて、標準で1.51勝上下にブレているということを表しています。

このデータを見ての印象としては「どのデッキもあまり標準偏差が変わらないな」ということです。
まあそうですよね、これだけ情報が瞬時に流通するようになった今の時代、デッキ相性に関してもそんなに極端にはなりにくく、真ん中に収束していく傾向があるように思います。

そのような環境においても、少数のデッキに集中せず、これだけのタイプのデッキにばらけるのはいいゲーム環境といえるのではないでしょうか。


その中でも、私が持っていた仮説

「対面ごとの有利、不利がはっきりしているデッキほど大負けもしやすいが7勝以上できる可能性も高い」

というのを半分無理やり検証してみようと思います。

データを見ていて一番特徴的だと思ったのがサーフゴーデッキです。
平均勝率は49.9%とほぼ5割を出しているのに
全体使用率⇒7勝以上したプレイヤーの中で占める割合が、
2.3%⇒1.4%
と大きく減少しています。

サーフゴーの勝ち数の標準偏差を見ると全体で一番少なくばらつきが少ないです。

また、ルギアとロスギラも特徴的で、どちらも平均勝率は高いので同じく全体使用率⇒7勝以上内での割合を見ると、どちらも上がってはいるのですが

ルギア(平均勝率52.7%):10.6%⇒14.6%  
ロスギラ(平均勝率52.3%):9.6%⇒11.6%

と平均勝率には大きな差がない割に、ルギアの方が上がり幅が大きいように見えます。
また同様に標準偏差を見るとルギア1.51に対しロスギラ1.46とルギアの方がばらつきが大きくなっています。

実は、標準偏差が大きくなればこのような結果が出るのは当たり前のことなのですが、問題はなぜこの標準偏差の差が起きるかということです。

ということでこの3デッキの今回パラメーターとして用いた各対面ごとの勝率のデータを並べてみます。

普通こういうの横に見ていくのですが、見にくいので縦に並べています

よくわからないですね(笑)、これでルギアが対面ごとの勝率に大きなばらつきがあり、ロスギラやサーフゴーが平均的だったら仮説もそうだったと言えるかも知れませんがこれだけだとそうも言えない気がします。

ただ他のデータも見ていて傾向ありそうだなと思ったのがサーフゴーは使用率の多いデッキに対して勝率が悪く、ルギアはそれらのデッキに対して勝率が高いという傾向があります。

やはり勝ち抜いていくためには、環境上位と言われるデッキに不利を取るようでは厳しいのかも知れません。

参考までに、各デッキの勝ち数の分布を並べます。

まとめ

  • 私が仮説として挙げていたようなことはありそうだとは思いましたが、そんなことよりデッキ自体が強いかどうかの方が影響が大きそう

  • 環境上位のデッキに不利を取るようなデッキは厳しそう

  • 平均勝率6割に行くようなデッキはやはり強く、平均勝率4割程度のデッキはやはり厳しい

  • 強いデッキの情報がすぐに流れるようになった今の時代、大きな差は生まれにくい

  • その中において今回の環境においてはカビゴンデッキは異常値

結論として、こういう情報も参考にしながらも、自分が強いと思ったデッキを信じて使え、ということのように思いました。

最後に

結局何か真新しい発見は特になかったのですが、まあ統計学なんて大半の場合新しいことが見つかるよりも多くの人が感覚的に思っていることを、データや理論で証明するものなので、そんなもの、と思っているのが良いと思います。

本来ならいろいろ検定とかやって有意な差があるか調べるべきなのでしょうが、別に論文書くわけではないのでそこまでは今回はしません。必要だと思ったらやってみます。

今回、こういうシミュレーションができることが分かったのは大きな収穫なので、今後面白そうな題材があったらまたやってみようと思います。

今度は次回のCL直前とかに、予想としてやってみようかな。

あとスイスドローでやる仕組みは、やればできそうな気もするのでいつか挑戦してみようと思います。

読んで下さった方の酒の肴にでもなれば幸いです。

この記事が気に入ったらサポートをしてみませんか?