n=3にしてみよう:平均と標準偏差
nが1つ増えると何が起きるのだろう
前回まで、n=2のデータで、平均と標準偏差について考えてきた。
今回は、データを1つ増やしてn=3でやってみよう。何が変わるだろうか。何が変わらないだろうか。
平均と標準偏差を計算しよう(n=3)
データ1:{ 1, 2, 3 }
データ2:{ 2, 4, 6 }
データ3:{ 41, 42, 43 }
平均の計算方法の復習(データ1を例に)
数値をすべて足す。$${1+2+3=6}$$
数値の数で割る。$${6\div3=2}$$・・・平均は2。
標準偏差の計算方法の復習(データ1を例に)
数値から平均を引いて偏差にする。$${\{1,2,3\}}$$のそれぞれから、平均の2を引いて、$${\{-1,0,1\}}$$。これを偏差といった。
偏差を2乗する。$${\{-1,0,1\}}$$をそれぞれ2乗して$${\{1,0,1\}}$$。偏差を2乗したので、偏差二乗あるいは偏差平方といった。
偏差平方をすべて足す。$${1+0+1=2}$$
数値の数で割る。$${2\div3=\frac23=0.66…}$$。これが分散であった。
ルートを取る。$${\sqrt{2/3}=0.816…}$$
割り切れない問題
n=3になると、多くの場合、分散の値は割り切れないことが多い。上の問題は、平均値が整数になるように数値を選んでいるが、平均値もまた、割り切れないことが多い。このとき、ちょっとした悩みが生ずる。(読んでいる方はどうかわからないが、少なくとも私にはもやもやが生じる)
どこで四捨五入したらよいのか。あるいは分数のままでよいのか。
適当な桁で丸めたら、その後の計算結果が大きく歪むのではないか。
さしあたり1の疑問については、次のように理解してよいと思う。
この私見について2つほど注釈をしておくと、
あくまでも心理学領域の、たとえばレポートなどで数値を報告するときの考え方について述べている。物理や化学などの領域では、それぞれの専門領域の見解があるはずで、それらの領域に踏み込むつもりは全くない。
ソフトウェアが計算するときに、途中経過をどう処理しているか(どの桁で丸めているか、あるいは、どの桁まで処理可能であるか)は、ソフトウェアによって異なるかもしれないので、これについても口を出すつもりはない。あくまでも、計算方法の理解のために、電卓で計算するときの話である。
問題の答え
データ1:{ 1, 2, 3 }
平均=2、分散=0.67(2/3)、標準偏差=0.82( $${\sqrt{2/3}}$$ )
データ2:{ 2, 4, 6 }
平均=4、分散=2.67(8/3)、標準偏差=1.63( $${\sqrt{8/3}}$$ )
データ3:{ 41, 42, 43 }
平均=42、分散=0.67(2/3)、標準偏差=0.82( $${\sqrt{2/3}}$$ )
データ1とデータ3は何が違って何が同じか
データ1とデータ3で、分散と標準偏差が同じ値になった。
そりゃそうだ。当たり前だ。そう思えるなら、分散についてよくわかっていると言えそうだ。
え? 数値がぜんぜん違うのに、どうして分散が同じなの? と思っているなら、分散についての理解がまだ足りていないと言えそうだ。
n=2の結果から考える~分散って何?の会で、分散の意味について図示してみた。同じ図を、今回のデータ1とデータ3にあてはめてみよう。
数直線に数値が入っていないが、データ1なら、🔷の部分に$${1,2,3}$$が入り、データ3では$${41,42,43}$$が入る。2つ目の赤い印🔶は、2つ目のデータの位置でもあり、平均値の位置でもある。
要するに、データ1もデータ3も、3つの数値が「1ずつ離れた位置にある」という点が同じである。だから分散も標準偏差も等しい。ただし(3つの数値を1つのまとまりとして見てほしいのだが)、数値の置かれている位置が違う。
$${1,2,3}$$というデータ1を、(3つの数値をまとめて)ひょいと持ち上げて、$${41,42,43}$$の位置までずらしたのがデータ3である。だから、平均値が異なっている。
このように、「いくつかの数値たち」を、「ひとまとまりのもの(=データセット)」として捉え、それが「おおむねどのあたりに置かれているか(=平均)」、「おおむねどれくらいの範囲に広がっているか(=標準偏差)」という2つの指標で見る
という見方は、データ分析においてとても大事な視点であると思う。このことは、今後いろいろな記事の中で繰り返し語られるはずである。