【統計学とはこんな学問だ!!】標準偏差編
はじめに:標準偏差は「ずれ」を表す
興味深いことに、クラス全員が同じテストを受けても、得点はまったく同じにならないことがあります。どの人も平均から何点かずれが生じますね。平均から「ずれ」の範囲内に多くのデータが偏ります。この「ずれ」を「標準偏差」といいます。
今回は「標準偏差」という概念に焦点を当てていきます。標準偏差とは何か、そしてなぜ私たちがそれを理解する必要があるのか、一緒に探求していきましょう。「平均はあてにならない」という内容を前回に書きました。前回はここから!
理由:偏差の2乗の平均に平方根をとることで求まる
データの平均と、実際のデータには幾分かずれが生じます。このずれが分かるといいことがあります。それは安心できます。たとえば、
せっかくなので、この「ずれ」、「標準偏差」を求めていきましょう。
求める際には「各々のデータと平均の差」を使います。あなたが65点、平均が70点の場合、$${-5}$$点の差があります。これを「各々のデータと平均の差」とします。これを「偏差」といいます。$${-5}$$点は一つの 偏差 です。
「偏差の平均を求めたら、「ずれ」が求まるんじゃないの?」と考えられますが、各々の偏差の平均をそのまま求めても「ずれ」は出てきません(0になってしまうので、工夫が必要です)。
一度、偏差を2乗して平均を取ります。これを「分散」といいます。分散はデータの散らばりを表します。
また、分散は「ずれ」が2乗されているイメージです。そのため、平方根を取れば ($${\sqrt{分散}}$$にする) 、求めたい「ずれ」が求まります。この$${\sqrt{分散}}$$が「標準偏差」になります。
具体例:実際に計算して、安心してみよう
この場合での偏差、分散、標準偏差を求めていきましょう。
これで、各データの偏差が求まりました。これを2乗して平均を取ると分散が出ます。
(余談ですが、A組もB組も、偏差の平均を取ると0になります。そのため、2乗をしてから平方根を取る工夫をしないと、「ずれ」が求まりません。)
分散を比べると、B組の方が散らばりが大きいことが分かります!B組の点数は明らかに個人差がバラバラですよね。次は標準偏差を求めましょう。
標準偏差は平均からの「ずれ」を表すので、ほとんどのデータは「平均±標準偏差」の中に納まっています。
A組の点数は、だいたい70±3.6点に収まっていることになります。
B組の点数は、だいたい70±25.4点に収まっていることになります。
まとめ:標準偏差の中にデータのほとんどが入っている
前回を見ていただいた方は、これで平均を使いこなすことができると思います。平均だけ分かっても役に立つとは限りませんが、標準偏差を知ることで、データの内容を知ることができるのです。
ところで、先程の例で「平均値±標準偏差」の中にほとんどのデータが入っていると申しました。この割合が実は分かっているのです。5人中3.4人は入っているのです。約68%が「平均値±標準偏差」の中に入っています。
3.4人を3~4人程度と考えてみます。今回の例だと、5人中4人が入っていたので、割合は確かなものになるかと思います。この性質を使うと、受験や模試などで用いられる偏差値などが導けるのです。
この割合にまつわるお話を次回させていただきます!最後まで見ていただきありがとうございました!高評価、フォローお待ちしています。