見出し画像

外れ値への理解

はじめに

「学歴だけがすべてじゃない」という言葉を耳にしたことがあると思います。この言葉は間違ってもいないですし、的を射ていると思います。人間を学歴だけで計ることはできませんし、それで人間性まで決められるのはおかしいです。しかし、この言葉を曲解し、大学に行かない理由にしている人がいます。確かに、学歴だけがすべてではありませんが、社会的に見て、学歴がいい人ほど、年収も高く豊かな生活をしています。そして、中には経営者もいます。東京商工リサーチの調査結果では経営者の最終学歴は大卒(52.47%)、高卒(37.58%)、中卒(6.74%)となっています。すなわち、統計的に大学を出ている人が経営者の過半数を占めているというデータが示されています。「学歴だけがすべてじゃない」はある種の外れ値と言えます。今回は統計データと外れ値について書いていきます。

統計データへの理解

広辞苑によると、統計とは、「集団における個々の要素の分布を調べ、その集団の傾向・性質などを数量的に統一的に明らかにすること。また、その結果として得られた数値」と定義されています。簡単に言うと、ある集団の傾向などを数字で示すものと言えます。統計はあくまでも傾向を示すものであり、100%そのことが当てはまるわけではないものなのです。つまり、少なからず、その傾向から外れるものが存在します。それを外れ値と呼びます。
この外れ値は統計を取る限り、永遠についてきますし、外れ値だけに焦点を当てて、この統計は無意味であると結論付けることは早計です。外れ値の割合がどれくらいかで統計データの信ぴょう性は異なり、ある程度の外れ値は最初から許容されています。外れ値は一定数存在するというのが大前提で、100%その傾向に当てはまるものではないことを理解しなければなりません。これが統計学の大前提になります。自然法則も統計学的に分析して、確からしいからそれを定説としているだけであって、外れ値が一定数存在することもあります。
外れ値があることが悪いように思われますが、人間が定義したもの(数字など)でない限り、傾向から外れることは至極当然のことです。統計で対象にしているのは、人間の行為などではあり、それらは完全に人間でコントロールできないものが対象であるため、そのため、傾向から外れることは珍しいことではありません。
外れ値は統計データの不備ではありません。むしろ、統計データの不備は外れ値が存在しないことです。外れ値が存在しない統計データは改ざんのような不正が疑われます。外れ値がある方がまともなデータです。外れ値の存在自体が統計データの不備と考えている人は統計データの読み方を知らない人ですし、外れ値のではない統計データを取ってほしいものです。

外れ値はどこまで許容されるのか?

外れ値の許容範囲についてルールはありませんが、5%以内であれば、許容されるのが一般的です。これを専門用語で「有意確率5%」や「5%水準」と言います。導き出された統計データから外れ値が5%以内であれば、その統計データが正しいものであるとする基準です。すなわち、5%水準であれば、20人または個に1人または個が外れ値であることは許容されるのです。これを多いと捉えるか少ないと捉えるかは人次第で、さらに基準を上げると1%水準やそれ以下で設定することがありますが、データの幅が広がってしまう危険もあります。
外れ値と大きな関りがあるのが偏差値やそれを導くために用いられる標準偏差です。偏差値は頭の良さを表す数値ではなく、データの偏りを示す数値であり、50が平均でそれより大きいか小さいかで自分がどの群にいるかは把握する数値です。偏差値を上げる方法は勉強をするのではなく、他のデータを平均に集め、自分だけ点数をキープすれば上がります。偏差値は身長、体重、年収、物価、製造ラインなどで使うことができます。
偏差値の話になりましたので、横道に逸れますが、大学受験と偏差値の話もしたいと思います。大学の偏差値ランキングは平均から差を見ているもので、平均の集団からどれだけ離れている人がどの大学に行っているかを示しているもので、偏差値自体が頭の良し悪しを決めるものでありません。平均集団からどれだけ離れた人がそれらの大学に行っているかを示しているので、そこにも必ず、外れ値が存在します。大学の偏差値は全国の受験生を対象にして導き出されたもので、校内での偏差値はまったく受験のあてにはなりません。むしろ、そんなものを出していて、進路選択をさせている学校は教員に偏差値の知識がないとしか思えません。超進学校での偏差値50と底辺校での偏差値50は全く別ものです。偏差値は特定集団の偏りを見る数値です。偏差値より、合格平均点や合格最低点のほうがよっぽど重要です。
話を元に戻します。偏差値は50を中心に平均以上か以下かを知る数値です。それに対して、標準偏差は、平均からの差を示す数値です。A市の家賃の平均が50,000円だったとします。そして、標準偏差が10,000円だったとします。平均の50,000円から±10,000円の価格帯がそのデータの68%をカバーでき、±20,000円となると95%をカバーできると考えられています。平均値±標準偏差の2倍で95%をカバーできます。有意水準を低く設定すると、平均値と標準偏差の差が大きくなるため、データの幅が広がるとはこういう理由が隠されているのです。
冒頭の「学歴だけがすべてじゃない」を5%水準で考えると、経営者に関しては、外れ値が多すぎるので、学歴だけがものをいうわけではなく、学歴だけがすべてでないことがわかります。しかし、高卒と大卒の各世代別の平均年収については、有意確率も0.3%と非常に低く、はっきりと差があることが統計的に示されました。学歴による年収は以下の表のとおりになります。

各年代別平均年収
学歴による年収差を示す有意確率
学歴別平均年収の標準偏差

この年収に差があるかどうかを調べたところ、標準偏差が高卒で約72万、大卒で約135万という結果になりました。つまり、高卒であれば、¥4,207,964(全体平均値)±約144万で95%の高卒労働者をカバーでき、¥5,863,336(全体平均値)±約270万で大卒労働者の95%をカバーできることになります。この幅を大きくすれば、より多くの人をカバーすることができます。
「学歴だけがすべてじゃない」という命題を肯定も否定もできないことというのが今回の結果です。ただ、学歴がいい方が年収も社会的地位も高いことがある程度示されていると言えます。学歴がすべてではなく、逆転できる可能性はあるとは思いますが、逆転のチャンスをものにするのは非常に難しいと思います。その結果をこの統計データが示していると言えます。外れ値に目が行くと本当に知るべきことが見えなくなってしまいます。そして、揚げ足を取っているようにしか思えません。統計データはある程度カバーされていれば、十分です。

最後に

統計データで外れ値は必ず存在します。身長や体重のようにある程度上限が決まっているものであれば、外れ値をほぼ0にすることはできますが、年収などのような上限が青天井に近いようなものになると、外れ値をなくすことはほぼ不可能になり、ある程度許容する必要があります。今回は学歴と社会的関係を例に挙げて、説明をしました。世の中で言われている言説を統計的に分析すると案外正しくないことが多く、その大半が思い込みや感情論です。データは時として冷酷な現実を突きつけますが、それが事実です。仮に事実でないにしろ、あなたが知りたかった現実です。これを現実として受け止める必要があります。統計データに外れ値が必ず含まれることを覚えていただきたいです。そして、外れ値だけに焦点を当てないでいただきたいです。外れ値だけに焦点を当てて、鬼の首を取ったような態度を取っていても、無知をさらけ出しているだけです。統計学を少しでも理解できれば、こういったことは少なくなるのではないかと思います。

この記事が参加している募集

#noteの書き方

29,098件

#数学がすき

2,904件

#創作大賞2024

書いてみる

締切:

この記事が気に入ったらサポートをしてみませんか?