データ分析 (1) 平均、分散、標準偏差

ここでは一次元数値的要約について書いていく。

平均

 各データからの距離が最小となる点(値)  。各データをXk (k=1,2,・・n)とすると平均値νは

  

画像1


 平均値は必ずしも標本の代表値ではない。そのことを注意する必要がある。

例えば、クラスAとクラスBには人がそれぞれ40人いるとする。それぞれのテストの平均点は70点と50点であった。こう見ると、全体的にA組の方が優秀であると思い込みがちである。しかし、A組では全員が70点を取っていてB組では20人が100点残りの20人が0点であるとどうだろうか。Aの方が優秀とは言い切れないであろう。これでも平均値は70点と50点である。平均と言うワードは信頼しすぎてはいけない。 


分散

標本のデータのばらつきを表す大きさ。各データをXk (k=1,2,・・n)とし平均値をνとすると分散σは

画像2

この式を見て分かるように分散は各データとその平均値の差の二乗の和の平均であることが分かる。分散が大きいと各データは様々な所に散らばっている。逆に分散が小さい時各データはあまり散らばってはいない。先ほどの例で言うと、クラスAの分散は0であるがクラスBの分散は2500と非常に大きい。


標準偏差

分散にルートをとったもの分散をσ、標準偏差をsとすると,

画像3

意味としては分散と同じでばらつきの大きさを表す。ただ、分散と異なる点はその単位である。例えばデータの単位が[L]だとすると、分散の単位は[L^2]となる。これでは扱いにくいのでルートを取るのである。


この記事が気に入ったらサポートをしてみませんか?