見出し画像

回線速いとCF勝てるのか?#3:分析の限界

前回のアンケート設計をベースに、絶賛アンケート受付中です。数が圧倒的に足りません(泣

今回の記事はデータ分析といっても魔法じゃないよって話をしていきます。


分析は妥協の産物

世の中ほぼすべてのデータ分析に共通して言えることだと思いますが、理想的で100点満点のデータ分析を実現できた人はこの世に存在しないのではないかと思います。データを集めるというところだけ取り出しても様々な難関があり、仮に集まったとしても分析を通じて100%正しい推論を導くのはほぼ無理と言って良いと思います。

つまり、今回の分析に当てはめて言うのであれば、分析を実施しても「回線が速いとCF勝てるのか、についての真理は結局分からない」ということになります。

じゃあ意味ないじゃん!!と思うのも無理はないかも知れませんが、ここでいう真理とは神様しか分からない類いのものです。100%正しい結果を導出することはできませんが、今集めた条件から推論として言えることはまとめられます。それが分析であり、実は悪く言えば妥協の産物なのです。

今回のデータ分析の限界

では、今回の分析ではどのあたりが苦しいのかを解説していきます。もっと費用をかけられれば、もっと権限(データにアクセスする権利のこと)があれば理想的なデータが集められるのですが、個人の力の限界を知ることになります。

限界その1:ほぼ主観的なデータのみ

今回のデータ分析の元になっているデータはアンケートの集計結果のみです。アンケートということは、ご協力頂いた皆様による記入によって生成されるデータなので、以下のような問題点があります。

  1. 主観的な評価で数字を入れることが出来る

  2. 入力間違いが発生する

  3. 意味の取り違いが発生する可能性がある

例えば、今回説明したい数字の「CF平均勝利数」ですが、こちらは実はみなさんに感覚値で入れて頂いている数字であり、正確な平均勝利数ではありません。EAの内部データにアクセスできれば正しい数字をとれるのかも知れませんが、その方法はないので、主観的評価でいいやと妥協しています。

それから、今回のデータにもあったのですが、Ping値864みたいな数字が紛れ込んだりします。高くても100は超えない数字と思いますので、この数字はおそらく8.64の転記を間違った可能性があります。このように、人が答える以上こういったミスは起きますし、それがミスかどうかを確かめるすべがありません。

最後のは選択肢の意味の取り違いによる誤評価/誤選択が起き得るということです。例えば、今回良く使うフォーメーションを選択して頂くのですが、勘違いして別のを選んでしまうというのはあり得ますし、1〜5段階で評価する項目も質問の設定とは真逆に読んでしまって、本来は「5」なのに「1」と回答してしまうケースもあるのです。

限界その2:限られた分析リソース

二つ目の限界は、分析官のリソースや能力によるものです。つまり、私一人では割ける時間と能力に限界があります
第1回でも触れましたが、私自身はデータ分析の専門家というわけではありません。とあるよく出来たツールがあるので、それに頼ればなんとかいけるかも、くらいの算段しかありません。

あと、分析というのは非常に創造的な仕事でして、一人でやるよりも複数の視点が入った分析の方がよりよいものになります。分析の手法もたくさんあり、どれを採用するかについては専門的な観点での議論があって然るべきと思いますが、それも十分ではないでしょう。

少し例を挙げると、今回のCF平均勝利数というのは0〜20の数字の範囲に収まるはずの数字です。これを単に重回帰分析という手法で分析すると、予測結果が20を超える数字があり得る形で出てきたりします。こういう条件下で、どういった分析の手法があり得るかというのを考えるのもまた「分析」の一部なのです。

限界その3:サンプルの数不足と偏り

これが最も大きく、まさに現在直面している課題でもあります。統計的に意味があることを言うためには、ある程度のサイズのサンプルが必要です。しかも、今回はCFの平均勝利数という数字を回線の品質の値以外でも調べようとしているので、より多くのサンプル数が必要になってきます。

ここで意外に思われるかもしれない話をしましょう。EAFCのユーザ数、しかもUT(Ultimate Team)のユーザ数ってどのくらい存在するのでしょうか。EAは日本国内でのソフトウェア販売数を公開していないので推定になってしまいますが、およそ5〜10万ユーザくらいではないかと思います。※長くなるので推定根拠は割愛
界隈で最もフォロワー数が多いXのアカウントを見ると1.2万フォロワーくらいだったので、少なく見積もっても1万ユーザは存在しそうです。

で、この1万ユーザ超の実態を調べるのに適したサンプルのサイズですが、意外なことに約400と比較的少数です。しかも1万ユーザだろうが10万ユーザだろうがやっぱり400程度の数字でOKなんです。

こういうサイトで調べることができます。

そしてもう一つ。サンプルとは基本的に無作為に偶然選ばれるものであって、1万ユーザがいるとすればそれを代表する400のサンプルといった関係が望ましいです。しかしながらX(旧Twitter)で募集、しかも私個人のアカウントから発信するので、拡散して頂ける方々を考えても必ず母集団に偏りが生じます。つまり、それなりにEAFCを遊んでいて、Xでアカウントを運用しているほど「熱心な」人たちのサンプルであり、1万ユーザを代表するものかどうかは非常に怪しいです。

でもやる意味はある!

ここまで書くと、納得のいく分析結果が出なかったときの言い訳っぽく見えてしまうかも知れません。それに、今回のデータ分析が「回線速いとCF勝てるのか?」論争に終止符を打つ類いのものではないことが分かってしまったんじゃないかと思います。

でも、私はこの分析を進める意味はあると思っています。

少なくとも、個人の感覚だけで回線における影響の有無を語るよりは遙かに根拠のある推論になりますし、別に回線の影響がどうかという情報に興味がなくても、アンケートで取得した別の集計の結果(例:よく遊ぶ時間帯など)を知るだけでも盛り上がるものになるのではないかと思います。

私は回線の影響結果ももちろん調べてみたいですが、それ以上にこの界隈が盛り上がれば良いなと思ってこの調査を始めました。

今のところ、統計的に意味のある400サンプルという数字にはほど遠い状況ですが、集まったデータから分かることだけでも皆さんにお返ししていきたいと思います。アンケート24年3月末まで公開する予定です。

アンケートへのご協力をお願いするとともに、結果を楽しみにお待ち頂ければと思います。

この記事が気に入ったらサポートをしてみませんか?