#10 【統計】②記述統計後半

筋肉系スポーツ学生の独学統計講座、第2弾です。今日は記述統計の後半、分散とか相関係数をやろうと思います。前半、後半ってかいちゃったけど、内容意外とおおくて今回長くなっちゃうかもしれません!


⑴散布度を表す値

前回は、統計とはなにかってところとヒストグラム・代表値をやりましたかね。代表値とは平均値、中央値、モードなどのデータを代表する値のことです。データの傾向を正確につかむためには、平均値だけじゃなくこれらの値を全部求めるとよいです。低所得者の多い地区にいきなり億万長者が家を建てたらその地区の平均所得が爆上がりしてしまう、というように平均値は「外れ値」の影響を受けやすい反面、最頻値や中央値は影響を受けないからです。

では、2つの地区の平均所得を算出して比べたとき、それらが同じ値(例えば500万円)だったら、2つの地区の所得の分布は同じといえるでしょうか?

前述のように低所得者と高所得者が同じ地区に住んで、結果的に平均が500万円になっている可能性もあれば、500万円ぐらいに分布が集中している、つまりみんな同じくらいの所得の中流家庭が集まった地区である可能性もありますよね。

そういう「分布のしかた=散布度」は代表値だけじゃよくわからないんですよね。そこで役立つのが分散です。これがなにかっていうと、データのばらつき加減を表す指標で、「偏差の2乗の平均値」で求められます。偏差っていうのは「平均値との差」のことです。たとえば、平均値が5のデータのなかの3という数字は、偏差=2です。

さっきの平均所得の話で、低所得者層(年収100万円)と高所得者層(年収1000万円)だけで構成されている地区があったとして、総合して平均500万円になっているとしましょう。すると、一人ひとりの偏差(平均との開き)が大きくなるので、当然分散も大きくなります。

これが、平均は同じ500万円で、450万円~600万円の中ぐらいの層だけで構成されている地区なら、分散は小さくなりますよね。分散がデータのばらつきを表す指標だと分かると思います。ちなみに統計では、分散はσ²(シグマ2乗)と表記されます。

多くの場合、σ²=(x²の平均)ー(x平均)² として計算されます。これは、分散の定義から式変形していけば簡単に証明できます。

分散の基本性質として、データ全体がa倍されると分散はa²倍になるが、データ全体にbだけ足されても分散は変化しない、というのがあります。証明は高校数学のΣがわかればできますが、今回は省きます。ちなみに平均値は、データ全体がa倍されればa倍され、+bされれば+bされます。


余談ですが、なぜ分散が2乗されているのか知っていますか?それは「もし2乗されていなかったらどうなるか?」を考えればわかります。分散は「偏差の2乗の平均値」なわけですが、これがただの「偏差の平均値」となると、それは必ず0になってしまいます。たとえば2,3,4,5,6というデータがあるとすると、偏差は-2,-1,0,1,2となり、足すと0です。これではばらつきが表せません!

賢い人は、では偏差の絶対値をとればよいのでは?と思うかもしれません。でも、絶対値記号って計算上とっても扱いにくくて厄介なんですよね。外すの大変だし、まとまらないし。だからこれを足し合わせて平均とってっていうのはけっこうめんどくさい。そこで2乗すれば、全部0以上になるし、絶対値も消えるし最善の手なんです。


でも、分散は2乗してる以上、単位の次元も2乗になってしまうんです。たとえば、あるグループの身長の分散を知りたいとなったときには、分散の単位はcm²になってしまいます。cmのばらつきを表すのがcm²というのも気持ち悪いなということで、分散の平方根をとって(√をつけて)標準偏差というものもつくられました。標準偏差の単位はもとのデータと同じcmになります。分散がσ²なので標準偏差はσ(シグマ)と表記されます。

ちなみに、人間のグループの体重の分散とハムスターのグループの体重の分散を比べたいときって、そのままでは当然人間の体重の分散のほうが大きくなってしまうって想像できますか?人間の偏差はkg単位ですけど、ハムスターの偏差は多分g単位ですから、あたりまえですよね。そういうスケールの違うもの同士のばらつきを比較したいときは、標準偏差を平均で割った変動係数というものが役立ちます。この場合は人間の体重の標準偏差を人間の体重の平均で割り、同じことをハムスターでもして、それどうしを比べればよいというわけです。

これら分散、標準偏差、変動係数は全て、データの散布度を示すのに使われる値です。


⑵チェビシェフの定理

分散が小さければ小さいほど、データは平均の周りに密集しますよね。これを表した式がチェビシェフの定理です。

画像1

↑(ただしk≧1)

つまり、k=1のとき、つまり平均±標準偏差の範囲には0個以上のデータが含まれ、平均±2・標準偏差の範囲にはデータの3/4以上が含まれる・・・という定理です。証明は素人にもできるものですが省きます。

チェビシェフの定理は、どんな分布のデータにも成立するところがミソなのでけっこう甘くなっています。実際は、正規分布と呼ばれる分布なら平均±標準偏差の範囲に約68%、平均±2・標準偏差の範囲には95%のデータが入ります。これは正規分布の話をするときにまた詳しくやります。


⑶2つの変数の相関

ってやろうとしたけど、、疲れてきちゃったので続きはまた次回ということで。ごめんなさい。。

次回は相関図、共分散、相関係数あたりをやろうかな。回帰直線は紹介だけして、求め方はその次にじっくりやります。あと今回けっこう証明省いちゃった感あるのでまた元気のあるときに加筆していこうかと思います。

では!

院試合格後の生活費になります!