見出し画像

【統計学とはこんな学問だ!!】標準偏差編


はじめに:標準偏差は「ずれ」を表す


 興味深いことに、クラス全員が同じテストを受けても、得点はまったく同じにならないことがあります。どの人も平均から何点かずれが生じますね。平均から「ずれ」の範囲内に多くのデータが偏ります。この「ずれ」を「標準偏差」といいます。

 今回は「標準偏差」という概念に焦点を当てていきます。標準偏差とは何か、そしてなぜ私たちがそれを理解する必要があるのか、一緒に探求していきましょう。「平均はあてにならない」という内容を前回に書きました。前回はここから!



理由:偏差の2乗の平均に平方根をとることで求まる


 データの平均と、実際のデータには幾分かずれが生じます。このずれが分かるといいことがあります。それは安心できます。たとえば、

 テストの平均点が70点、「ずれ」が5点だとします。つまり、テストを受けた人の多くが、65~75点を取っているということです。あなたの点数が65点なら、だいたいの人が同じ点を取っているので安心できますね。

 テストの平均点が70点、「ずれ」が3点だとします。つまり、テストを受けた人の多くが、67~73点を取っているということです。あなたの点数が65点なら、あなたと同じ点を取った人は少ない可能性が高く、安心できません。周りの人よりも少ない点を取っているというので不安に感じるかもしれません。

イメージ図 (横に書けばよかった)

 せっかくなので、この「ずれ」、「標準偏差」を求めていきましょう。

求める際には「各々のデータと平均の差」を使います。あなたが65点、平均が70点の場合、$${-5}$$点の差があります。これを「各々のデータと平均の差」とします。これを「偏差」といいます。$${-5}$$点は一つの 偏差 です。

 「偏差の平均を求めたら、「ずれ」が求まるんじゃないの?」と考えられますが、各々の偏差の平均をそのまま求めても「ずれ」は出てきません(0になってしまうので、工夫が必要です)。

 一度、偏差を2乗して平均を取ります。これを「分散」といいます。分散はデータの散らばりを表します。

 また、分散は「ずれ」が2乗されているイメージです。そのため、平方根を取れば ($${\sqrt{分散}}$$にする) 、求めたい「ずれ」が求まります。この$${\sqrt{分散}}$$が「標準偏差」になります。

・偏差・・・各々のデータと平均の差
・分散・・・偏差の2乗の平均、データの散らばりが分かる
標準偏差・・・分散に平方根を取ったもの、平均からの「ずれ」が分かる


具体例:実際に計算して、安心してみよう


人数5人のA,B組がある。A,B組のテストの点数と平均点
A組:75, 70, 66, 66, 73  平均点:70点
B組:75, 83, 20, 89, 83  平均点:70点

 この場合での偏差、分散、標準偏差を求めていきましょう。

【偏差】
A組の偏差:75-70, 70-70, 66-70, 66-70, 73-70  平均点:70点
よって、A組の偏差は 5, 0, -4, -4, 3 になる
B組の偏差:75-70, 83-70, 20-70, 89-70, 83-70  平均点:70点
よって、B組の偏差は 5, 13, -50, 19, 13になる

 これで、各データの偏差が求まりました。これを2乗して平均を取ると分散が出ます。
(余談ですが、A組もB組も、偏差の平均を取ると0になります。そのため、2乗をしてから平方根を取る工夫をしないと、「ずれ」が求まりません。)

【分散】
A組の偏差の2乗:25, 0, 16, 16, 9
A組:$${(25+0+16+16+9)÷5=66÷5=13.2}$$
B組の偏差の2乗:25, 169, 2500, 361, 169
B組:$${(25+169+2500+361+169)÷5=3224÷5=644.8}$$

 分散を比べると、B組の方が散らばりが大きいことが分かります!B組の点数は明らかに個人差がバラバラですよね。次は標準偏差を求めましょう。

【標準偏差】

A組:$${\sqrt {13.2}= 3.6}$$ 
B組:$${\sqrt {644.8}= 25.4}$$

小数点第2位四捨五入

 標準偏差は平均からの「ずれ」を表すので、ほとんどのデータは「平均±標準偏差」の中に納まっています。

 A組の点数は、だいたい70±3.6点に収まっていることになります。
 B組の点数は、だいたい70±25.4点に収まっていることになります。

人数5人のA,B組がある。A,B組のテストの点数と平均点
A組:75, 70, 66, 66, 73  平均点:70点 (平均±標準偏差:66.4~73.6)
B組:75, 83, 20, 89, 83  平均点:70点 (平均±標準偏差:44.6~95.4)

再掲

まとめ:標準偏差の中にデータのほとんどが入っている


 前回を見ていただいた方は、これで平均を使いこなすことができると思います。平均だけ分かっても役に立つとは限りませんが、標準偏差を知ることで、データの内容を知ることができるのです。

 ところで、先程の例で「平均値±標準偏差」の中にほとんどのデータが入っていると申しました。この割合が実は分かっているのです。5人中3.4人は入っているのです。約68%が「平均値±標準偏差」の中に入っています。

 3.4人を3~4人程度と考えてみます。今回の例だと、5人中4人が入っていたので、割合は確かなものになるかと思います。この性質を使うと、受験や模試などで用いられる偏差値などが導けるのです。

 この割合にまつわるお話を次回させていただきます!最後まで見ていただきありがとうございました!高評価、フォローお待ちしています。

いいなと思ったら応援しよう!

この記事が参加している募集