平均値ではなく中央値で考えてみる
前回までの投稿では、物価というデータをテーマに考えました。先日、ある企業様でデータを使った検討をしている際、「中央値と平均値はどう違うのか、どっちを使うのがよいのか」という質問を受けました。統計に精通している方にとっては、十分慣れ親しんでいることかもしれませんが、今日は改めて中央値と平均値について整理してみたいと思います。
ある集合体のデータを一言で言い表す「代表値」として、主なものが3つ挙げられます。
平均値:データをすべて足した値を、個数で割ったもの
中央値:データを小さい方から順に並べ、順位がちょうど真ん中の値
最頻値:データの中で最も頻度の高い値
例えば、1億円、4,000万円、500万円、300万円、200万円の5つのデータで、平均値は3,000万円です(1億5,000万円÷5)。中央値は500万円です(順位が真ん中)。
これが、5人の人物が所有している現金だとして、「平均3,000万円」と言われたとします。しかし、500万円、300万円、200万円の所有者からすると、まったくピンとこない、的を外したような話にしか聞こえないでしょう。「真ん中の人が500万円」と言われたほうが、本質をついている感じがするはずです。
これと同じ事象が、例えば「日本における平均世帯年収」です。
厚労省の「2019年国民生活基礎調査」によると、全世帯の平均年収は約552万円となっています。一方で、中央値は約437万円です。実に100万円以上の差があります。なぜこんなに差がつくのかというと、一部の超高額所得者が平均値を吊り上げているからです。
例えば、「典型的な世帯をモデルとして政策の内容を検討する」「他の世帯が何にどれぐらいのお金を使っているのかを参考にして自分の家計のあり方を見直す」などの目的であれば、対象とする値は平均値よりも中央値を使うほうが適切だと言えます。
上記調査で最も割合の多い所得金額帯は、200~300万円未満の13.6%となっています。続いて300~400万円未満の12.8%、100~200万円未満の12.6%と続きます。よって、最頻値は200~300万円未満となります。中央値と最頻値をかけ合わせることで、より実態を的確にとらえやすくなります。(平均値に標準偏差などの散布度をかけ合わせて評価することもできますが、複雑になるので省きます)
中央値の強みは、大きな異常値があっても、データが真ん中から左右対称になる正規分布でなくても、概ね妥当な代表値になることです。この性質を踏まえると、基本的に次のように考えることができると思います。
データの分布で偏りが大きいとき:中央値がよい
データの分布で偏りが小さいとき:平均値がよい
より実践的には、「データ取得にあたって、簡単にぶつかる天井がある」場合は、平均値のほうがより適していそうです。例えば、企業で行われる従業員満足度サーベイの質問項目がそうです。1~5の中から当てはまる満足度を選ぶ場合、どんなに満足していても5が天井です。こういう場合は、中央値でなく平均値で考えると本質に近づけそうです。他方、上記の年収などは天井がない例です。その場合、中央値のほうが本質を観察しやすそうです。
冒頭の企業様では、例えば以下のような事象が起こっていました。
・全営業担当者平均の営業実績金額が、昨年よりアップしていた。しかし、ある営業担当者1人の実績が大幅に伸びていたために平均値が吊り上げられた結果で、その人を除くとほとんど変わっていなかった。
・その営業担当者の実績の伸びも、特定顧客2社が例年以上に大量発注してくれた結果に過ぎなかった。その大量発注も、営業担当者の努力ではなく顧客企業内の事情による偶発的な発注だとみなすべきもの。よって、来年以降再現性があるのかは疑わしい。
・しかしながら、全営業担当者平均がアップしていたために、「視界良好。問題なし。」で通過しようとしていた。
平均値が適さないにも関わらずあえて平均値を提示することで、対象となる事象をよさげに演出することも、よく見られる方法です。例えば、求人情報で「管理職も含めた平均年収」を掲示し、データに超高給取りの管理職も混ざっているような場合です。その情報も決定要素のひとつとして入社してしまうと、「聞いてた話と実態が違う気がするのだけど」ということになりかねません。
これらと似たことは、私たちの周囲でありがちです。データを的確に評価し意味づけすることは簡単ではありませんが、ひとまず平均値と中央値の違いを頭の隅に置いておくだけでも見え方が変わってくると思います。
<まとめ>
回答内容の値に天井がないデータを見る場合は、平均値より中央値を意識してみる。
この記事が気に入ったらサポートをしてみませんか?