見出し画像

回線速いとCF勝てるのか?#4:基本統計量とは?

皆様にご協力頂いたアンケート、ご協力頂いた方が100名を超えました!お忙しいところ、質問数の多いアンケートにお答え頂いてありがとうございます。アンケートは3月末をもって締め切りとさせて頂きました。

いよいよ分析編の記事を書いていこうと思いますが、その前に分析をより理解するために基本統計量の話をしたいと思います。


基本統計量とは?

基本統計量とは、「データの集まり(データセット)の特徴を表す数値」のことです。データの集まりの「要約」と表現しても良いかもしれません。ここで良く使われる基本統計量を、実際にアンケートで取得したデータで解説していきたいと思います。

年齢の分布は?

年齢のヒストグラム
  • 平均:約29.6歳

  • 中央値:29歳

  • 標準偏差:約7.4

  • 最小値:15歳

  • 最大値:49歳

平均や最小値、最大値はイメージが付くのではないでしょうか。そして、中央値や標準偏差というのはもしかすると聞き慣れない言葉かも知れません。中央値というのは、低い順に並べ直してちょうど真ん中にくる数字のことです。今回の場合の中央値は、114名の方にアンケートに回答頂いたので、57番目と58番目の方の値の平均になります。
標準偏差はデータのばらつき具合のことです。でも7.4って言われても良いのか悪いのかピンと来ませんよね・・・。ざっくりの理解ですが、平均からプラマイ7.4の間にデータの7割程度が集まっている、というような理解で宜しいかと思います。つまり、22歳〜36歳くらいがボリュームゾーンだってことですね。私、見事にそのボリュームゾーンにいませんけどね・・・。

気になるCFの勝利数は?

では今回分析の主なターゲットになっているCFの平均勝利数も見てみましょう。

CF平均勝利数のヒストグラム
  • 平均:11.39

  • 中央値:11.5

  • 標準偏差:約4.17

  • 最大値:19

  • 最小値:0

平均も中央値も11勝を超えています。いつもランク5に到達しているよという人が多いようですね。思ったよりも猛者が多い印象ですが、X(旧Twitter)で募ったアンケートということを考えると妥当なのかも知れません。

なんで基本統計量を見るのか?

さて今数あるデータの中から分かりやすい年齢とCF平均勝利数について基本統計量を見てきましたが、そもそもこれなんで確認するの?というのが素朴な疑問かと思います。

基本統計量を確認する目的は、データの素性を確認することです。分析を進める上で、データの信頼性というのは非常に重要な要素です。間違ったデータからは間違った答えしか生まれないからですね。

例えば今回年齢についてはある程度素性の良いデータに見えているのではないかと思います。しかし、実はデータには100歳を超えるデータが混ざっていました。最初はそれに気づかずに機械的にグラフ化し、基本統計量を算出してみたのですが、とんでもないグラフの見た目(や数字)になるんですね。基本統計量を確かめたことで、私はデータの中に異様な値(外れ値といったりします)があることに気づけたのです。

もう一点あります。今度はCFの平均勝利数のグラフをもう一度見てみましょう。グラフの左端にちょっと盛り上がりが見えます。これはCFの平均勝利数が0勝(=POで敗退してしまう or 出場しても1勝もできない)のカウントです。分析をする際に、この「0」という数字がちょっと悪さをする可能性があります。

0勝を除いたグラフ

0勝のデータを除くと、平均勝利数は約12、中央値も12になります。この影響をどう見るかというのはこれからの分析次第ですが、基本統計量を確認したことで、こういったデータの性格や特徴をつかむことができたというわけです。

予告編:いよいよ本論に迫る

さて最後に予告編です。次は今回のテーマである「回線速いとCF勝てるのか?」に迫る話をしていきたいと思います。その前に、一つ大事な要素があるのでそれも紹介しておきます。

その大事な要素というのは「相関」です。相関というのは、一方の数字が大きければもう一方の数字も大きくなる関係のことを指します。

CF平均勝利数とCF最高成績の相関図

このグラフはCF平均勝利数とCF最高成績の相関を示したグラフです。まぁ普通に考えて「平均11勝ですけど最高は20勝です!!」という人は大変まれだと思いますので、こんなグラフを描かずとも自明かなと思います。相関係数というのがあり値は0.96となっていますが、1に近いほどかなり強い相関を持っているという指標になっています。

回線速いとCF勝てるのか?についてはまず相関を見ていくところからと思っています。相関があるからといって即座に因果関係があるとは言えないのですが、それはまた別の記事で解説したいと思います。

ちなみに、回線が速い=Ping値が少ないということですので、正確には逆相関(一方の値が増えれば増えるほど、一方の値は減っていく)を表してみることになりますね。

分析編はまだまだ続きます。続報をお待ちください。


この記事が気に入ったらサポートをしてみませんか?