見出し画像

「平均値」安易に使いすぎていませんか!?

はじめに

いきなりですが、例えば「表計算ソフトのExcelで集計データの平均値を取り敢えず出しておく」
みたいなことってありがちではないかなあと思うわけです.

たくさんデータあったら取り敢えず平均値出しとけばOK!!

ではないんですねこれが.

我々、義務教育が始まってからこれまで
・テストのクラス平均点
・テレビの平均視聴率
・会社の平均年収(年功序列の給与形態)
などなど様々な平均を見てきましたよね.
上の3つの例にひとつだけ仲間はずれがいるのですが、どれかわかりますか?
ヒントは、2つはきちんと平均を取ることに"意味"があります.




正解は…「会社の平均年収(年功序列の給与形態)」です.

ではなぜ、同じ"平均"であっても"意味のある"ものと"意味のない"ものに分かれるのか紐解いていきます.
※統計学の考えなのですが、専門用語は極力使わないよう頑張ります.

平均値とは

そもそも平均値って何なんでしょう?
→全データの和をデータ数で割ったもの
これは合っています.でもそれは、平均値を計算するときの操作の説明であって、平均値そのものの意味の説明にはなっていません.

平均値とは、
「『各データと平均値との差』の総和が0になるように決定されるデータ群の代表値」
です.
ちょっとわかりにくいですかね?
イメージとしては、こんな感じです.

画像1

わかりましたかね?わからなければ適当な数値データ群でご自分で試してみてください.
ここで言いたい平均の注意点については最後に説明します.

ばらつきがあるから平均する

世の中はばらつきだらけです.
みんなの身長はばらばら、体重もばらばら、見ているテレビもばらばら、500mlペットボトルだってきちんと測れば500.1mlかもしれないし499.9mlかもしれない.

でも毎回毎回全部調べてられないですよね、数が多くなればなるほどデータだらけになって大変.

だから、
「それぞれのデータにばらつきは大なり小なりあるけど、たくさんあるデータの代表的な値」
これが"平均値"です.

ここで平均するデータ群に注意点があります.
データが"ばらつく"というのは、値が異なればばらついているという訳ではなくて、平均値を境にプラスにもマイナスにもばらついてかつそれが両方とも同じくらいの頻度で起こっていることが重要です.

なら0, 100, 0, 100, 0, 100, 0, 100, 0, ・・・・・というデータがあって、平均したら50でした.それってこのデータ群の代表値でしょうか?
これは感覚的にも違うとわかりますよね.

じつはもう一つポイントがあって、それは、データが平均値に近い値ほど多いことです.

画像2

それを絵にするとこんな感じです.実はこの形、◯◯分布と言って統計学でとーっても重要なものです.気になる人はググってみてね.

ここで振り返ってみましょう.
テストのクラス平均点は,平均点くらいの人が一番多くて,100点とか0点を取る人は非常に少ないです.
成人男性の平均体重も,平均くらいが一番多くて,めちゃめちゃ軽い40kgの人とか重い150kgの人はめったにいないでしょう.
だからこれらのデータ群は平均していいデータ群にあてはまりますよね?

じゃあなんで平均年収は仲間はずれなのか?

分布を想像しよう

平均年収が仲間外れな理由は、場合によっては平均に意味がないからです.
最初に、「会社の平均年収(年功序列の給与形態)」と書いたのはこの意図があります.会社に所属していると、職位の高い人(少ない)が高額の年収なのに対し,その他の社員は年齢とともに多少上がる程度で対してもらっていないんですね.このとき、データ軍は平均をとっても良さそうでしょうか?

ここまで読んでくれた方は、すぐにだめだと分かると思います.
だって、データ群が先ほど説明した

1.平均値を境にプラスにもマイナスにもばらついてかつそれが両方とも同じくらいの頻度で起こっている
2.平均値に近い値ほど多い

この2つのポイントを抑えていないからです.

冒頭で、平均値とは、「『各データと平均値との差』の総和が0になるように決定されるデータ群の代表値」と説明しました.
これは言い換えると、上の2つのポイントを抑えたデータ群に対してでないといけないにも関わらず、計算としては平均できてしまうので、誤った代表値を計算してしまうよ.
ということです.

ですので、ここで言いたいのは、
むやみやたらに平均するのではなく、一度頭の中でデータ群の分布を想像してからすると良いですよ!これです.

※ここまで色々説明してきましたが、世の中にはばらつきだらけと説明したように、結局あまり考えなくても平均しておくのが無難である事例は山程あります.

まとめ

1. 平均値とは、「『各データと平均値との差』の総和が0になるように決定されるデータ群の代表値」
2. 平均して良いデータとは、
  i.平均値を境にプラスにもマイナスにもばらついてかつそれが両方と
    も同じくらいの頻度で起こっている
  ii.平均値に近い値ほど多い
3. 分布を想像して正しく平均しよう!!

ここまで読んで出さった方の気づきに少しでもなれたら嬉しいです.
ありがとうございました.


この記事が気に入ったらサポートをしてみませんか?