「平均値」「中央値」「最頻値」の違いを理解すると統計はおもしろい
統計を活用すると、誰もが納得できる客観的な根拠を提示することができますが、統計ではデータから何を読み取るかが非常に重要です。
データは使い方を間違えると見誤る原因になるので、数字に騙されないように各数値が何を意味しているかを理解しておく必要があります。
統計で用いられるデータには様々な種類がありますが、統計を学ぶうえで、まず押さえておきたいのが代表値です。
代表値とは、データの傾向や特徴を表す数値のことで、例えば世代別の年収を調査するケースにおいて、各年代の年収データを収集すると様々なデータが集まりますが、それらのデータの傾向や特徴を表す代表的な値が代表値となります。
そしてこの代表値は大きく平均値・中央値・最頻値の3種類があるのですが、これを理解しておくことでデータを正しく見ることが可能となります。
平均値は、データを全て足した合計値をデータ数で割った値です。平均値には算術平均・加重平均・幾何平均・調和平均など様々な種類がありますが、ここでの平均値は算術平均を指します。
中央値は、数値を大きい順もしくは小さい順に並べた際に真ん中の順位に位置する値のことです。
データ数が偶数の場合は、真ん中の順位となる2つのデータの平均値を中央値とするのが一般的です。
最頻値は、最も出現率が高いデータです。出現率が最も高いデータが複数個ある場合は、それらすべてが最頻値となります。
これら3種類の代表値はいずれもデータを特徴づける値となりますが、各代表値には得意・不得意があるので注意が必要です。
例えば、平均値は使い勝手が良く、データ全ての変化をしっかり考慮することができますが、極端な数値があった場合の影響が大きいというデメリットがあります。
また、中央値は極端な数値があったとしてもほとんど影響を受けませんが、全データの変化を見たり比較したりするのには適しません。最頻値についても極端な数値の影響を受けませんが、サンプル数が多くないと信頼性が下がるというデメリットがあります。
このように各代表値には一長一短があるので、状況に応じて適切に使用することが重要です。