平均値と中央値
平均値と中央値どっちを見たほうがいいですか?と聞かれることがちょいちょいあるのですが、皆さんはそう聞かれたときなんて答えるでしょうか?
「まぁ、ケースバイケースですよね」っていいません。
今回は、平均値と中央値の違いを考えてみたいと思います。
平均値と中央値の違いわかりますか?
と聞かれたら、分かるよという人が多いかと思います。
例として10人の1分で何文字タイプできるかというテストをした場合で考えてみましょう。
文字数が少ない順に並べて表記したところ、
100、100、100、110、120、130、150、150、160、280 文字だったとすると (一人だけやたらすごい人がいるケース)
平均は、10人合計の1400文字を10人で割った、140文字となります。
ちなみに中央値は真ん中なのですが、偶数人数なので、5人目と6人目の間を取ります。5人目120、6人目130なので中央値はその間の125ということに。ちなみに(人数が奇数だった場合、例えば9人だったら5番目の人の文字数が中央値になります。)
平均値の方が中央値よりも15大きい結果となりました。
さて、この辺からが今回のポイントになります。
最も文字数をたくさん書いた人が180文字だったとすると、平均は130になっていたのですが、280文字も書くというスーパーマンのような人がいた結果、一人で平均値を10も押し上げたことになります。
このように平均値は、外れ値(今回のスーパーマンのような人)が存在する場合、大きくなったり小さくなる影響を受けやすいという特徴があります。
過去に平均年収のニュースを見て書いた記事があるので気になる方は是非合わせて読んでみてください。
逆に中央値は一番たくさん書いた人が180文字でも280文字でも変わらないためこのような影響はやや受けにくいところがメリットではあります。
これだけを聞くと平均値よりも中央値の方がよさそうな気がしますね。でも平均値には良いメリットがあるんです。
平均値を深ぼってみる
平均値の大きいメリットは3つあるかなと思っています。
① 全体像が見える
② 何回か平均を取って平均の平均をとると
③ 計算で出すことができる
① 全体像が見える
先のどの例題で
平均は、10人合計の1400文字を10人で割った、140文字となります。
と書きましたが、文字通り全員で1400文字書いたという総数が平均値には入っています。(算出方法がそうですからね。)平均値だけでなく、その全体個数(分母にあたる)を込みで把握できると理解できる範囲が大きくなってきます。会社の平均年収なんかもそうです。社員数をかけるとその会社の人件費をおおよそ考えられます。売上の占める割合なんかもそこからおおよそ推定できることもあり得るわけです。とはいえ、この性質が外れ値の影響を受けやすいということと同義であるわけなので、よく見るか、悪く見るかはあなた次第です!
ちなみに、平均値を見る場合は、この弱点を補う方法としてヒストグラム書いてみるとか散布図見てみるとか言う方法、そのほかには分散・標準偏差といった統計量を見ることでどれくらい外れ値の影響ありそうかを見る方法があります。
また、先ほど中央値は5人目と6人目の中間値となりましたが、この間が非常に空いている場合なんかは中央値も使いにくいこともありますので、ヒストグラムで確認はデータを見るうえでかなり重要です。
② 何回か平均を取って平均の平均をとると
③ 確率分布との組み合わせでいろいろできる
このあたりは統計学の話になるのでサクッと行きますが、きちんとランダムにサンプリングされた平均値を何回、何十回と出していくと、サンプリングされた元の集団全体(統計学的には母集団)の真の平均値に近づいていくという性質が知られています。(統計学的には不偏性があるといいます)
また、確率分布との組み合わせで計算が楽になったり、いろいろ考えることができるようになるのも平均値の強み。この辺が初級の統計学の肝になるところでもあります。
ちなみに最頻値という見方もある。
さいごに平均値、中央値のほかに最頻値というものがあります。
サンプルの中で一番たくさん出現した数字は何かというもので、今回の例だと100文字が3人で一番多かったので、この100が最頻値ということになります。実際にはこの3つを知ることでどういう分布ぽいかを考えるという方もあったりします。
ここまで読んでいただきありがとうございます。 スキを押していただけると嬉しいです。 フォローしていただけるとさらにうれしいです。