あなたは富豪?それとも… ~年収でみる平均値と中央値の違いと使い方~
はじめに
こんにちは!
皆さんが普段もらっているお給料、「平均年収って聞くけど、実際のところ自分の年収ってどうなの?」と思ったことはありませんか?
そんな時に役立つ数値が、「平均値」と「中央値」です。
今日は日本の年収データ(2019年 国民生活基礎調査の概況)を使って、平均値と中央値の違いを楽しく学んでいきましょう!
まず、「平均値」についてです。
「平均値」は、全部のデータの値を足してデータ数で割る、ご存知の通りの計算方法です。
しかし、ここで一つ注意点があります。
平均値は、外れ値(極端に高い値や低い値)の影響を強く受けます。
つまり、数人の大富豪がデータ内に含まれると、平均年収はぐんと上がってしまいます。
では、「中央値」はどうでしょう?
「中央値」は、データを小さい順に並べた時の真ん中の値です。
中央値は、逆に外れ値の影響を受けにくいのが特徴です。
つまり、一般的な人々の年収をよりリアルに反映することができます。
実際に2019年に行われた国民生活基礎調査をみてみると、世帯年収の平均値は552万円なのに対し、中央値は437万円と、115万円の差があります。
一部の大富豪が巨額の年収を得ているため、こんなにも平均値と中央値に差が生まれる結果となっています(世知辛いですね、、、)。
また、全労働者の年収だけでなく、大学卒業者や年齢別のデータを見ると、より詳しい傾向が見えてきます。
大学卒業者の年収は、全体の平均と比べてどうなのか、若い世代の年収は中央値で見るとどう変わるのか、そういった視点でデータを見ると、自分の年収がどの位置にあるのかがより明確になります。
平均値と中央値の違いが大事になる例
さて、ここまでは日本の年収データを使用して、平均値と中央値の違いについて説明してきました。
ここからは、日々データ分析の業務をする中で、この二つの代表値をどのように使い分けるべきなのかについて見ていきましょう。
例えば、あなたが業務の中で以下の場面に直面したとき、どのように対処していきますか?
とあるサービスAの来年度の予算を決定するため、次の図ようなサービスAの過去5年分の売上データを元に、来年度の売上を予測するモデルを作ることになった。
その際、モデルには簡易的に過去5年分の毎月の売上の平均値、または中央値を当てはめて作成する方針となった。
上司に、「平均値と中央値のどちらを当てはめるべきだろうか?」と聞かれたあなたは、なにを根拠に、どちらの値を採用するだろうか?
平均値と中央値の大きな違いは、「非常に高い値や低い値の影響を受けるかどうか」でしたね。
実際にはどの値を「非常に大きい値、小さい値」とするかはありますが、今回のデータに関しては2020年度の売上が他の年度と比較して非常に大きいことが分かります。
試しに5年間の売上の平均値、中央値を算出すると、
平均値:20億600万円
中央値:14億780万円
となりました。
平均値は2020年度の売上データに引っ張られることで、高く見積もられることが分かります。
よって今回の場面では、「予測モデルに採用する数値は中央値です。
根拠は、2020年度の売上データが他の年度と比較して非常に大きくなっており、平均値を採用した場合、予測が高く見積もられる可能性があるためです。」といった伝え方ができます。
※もちろん「2020年度を除外した平均値を採用する」などの回答もあるかと思いますが、ここでのポイントは平均値と中央値の差を認識できていることです。
実際に実務の中では、分析結果を上司に伝える場面があります。
その際に、なぜその数値を採用しているのかを聞かれることも多く、数値の意味をしっかりと理解しておくことが大切です。
まとめ
いかがでしたか?
平均値と中央値という基本的な数値でも、意外と意味を説明できて活かすことができる人は少ないのではないでしょうか。
今回の記事を通じ、平均値と中央値のより深い理解につながれば嬉しいです!
【ワークスアイディのホームページはこちら】
この記事が参加している募集
この記事が気に入ったらサポートをしてみませんか?