【ホントかよ】中心極限定理が正しいか検証する

中心極限定理を使えば、複数個(n個)の標本から1個ずつ取り出した標本平均から1個の標本を作れば、その標本は正規分布となり、その標本の平均値は母集団の平均値の1倍、その標本の標準偏差は母集団の標準偏差の1/n倍に近くなるとされています。このとき、前述した「複数個(n個)の標本」の標準偏差は使いません。

本記事では、上図に示すように、母集団(数値が大きいことが良い記録であるとみなせる数値を使用)から標本を作り、数値→偏差値のグラフA、Bを作成するとともに、母集団を全数調査して、数値→偏差値のグラフCを作成します。
なお、本物の統計調査ではグラフCを作ることができないからグラフAやグラフBを作るのであって、グラフBが、グラフCと近ければ近いほど、中心極限定理は信ぴょう性があることになります。

一次関数のグラフについて

グラフA、グラフB、グラフCは一次関数のグラフですが、横軸に数値、縦軸に偏差値を置いています。実はこのグラフの正体は散布図であり、数値とその数値から計算した偏差値とをプロットしています。このプロットした散布図に最小二乗法で近似曲線を引けば、相関係数1のy=ax+bで表現できる、つまり、数値→偏差値は一次関数になります。筆者は、わざと偏りを持たせた乱数を含む複数の乱数でExcelにこの近似曲線を作らせましたが、いずれも相関係数が1となりました。

母集団

この検証で使用する母集団(すべて整数でカンマ区切り)は、704,657,694,781,714,892,714,862,833,806,757,641,657,781,714,694,675,657,714,694,714,694,735,641,694,735,735,781,757,757,657,641,714,757,641,781,714,735,735,694,641,657,714,694(平均速度(mm/s)を小数点以下切り捨て)を使用します。

標本Aを作成

母集団から30個を無作為抽出した標本Aを作成します。ここでは、735,641,892,694,714,757,714,694,757,694,806,735,694,657,714,781,694,657,641,694,757,657,694,714,641,735,781,714,641,735を標本Aとします。
標本Aの平均は714.4666667、標準偏差は55.79935319となりました(STDEV.Sを使用)。

標本1~30を作成

母集団から30個を無作為抽出した標本を30個作ります。
これらの標本の平均は、714.233333333333,726.166666666667,711.633333333333,716.9,732.866666666667,719.5,729.5,723.6,709.466666666667,715.633333333333,714.166666666667,710.8,717.766666666667,718.966666666667,705.3,730.666666666667,715.633333333333,717.5,722.633333333333,713,717.633333333333,729.033333333333,724.8,725.633333333333,707.166666666667,712.433333333333,717.866666666667,721.7,720.766666666667,729(ピリオドは小数点、カンマは区切り文字)となりました。
これを1個の標本として平均値・標準偏差を計算したところ、平均値は719.0655556、標準偏差は7.22191473となりました(STDEV.Sを使用)。30個の標本を作ったため、中心極限定理では、この標準偏差は母集団の標準偏差の30分の1に近くなっているはずです。
標準偏差を30倍すると、216.6574419となります。

母集団の平均値と標準偏差は?

本物の統計調査では母集団を直接計算することはできませんが、この記事ではそれができます。母集団の平均値は719.5227273、標準偏差は58.33659721となりました(STDEV.Pを使用)。

グラフを作成

冒頭の図で示した通り、標本AからグラフAとグラフB、母集団からグラフCを作成します。
中心極限定理を用いて平均値と標準偏差を定めたグラフBが、グラフA・Cと大幅に離れた結果となりました。
念のため、標準偏差7.22191473を2乗して(つまり、分散に直して)30倍したものの正の平方根をとりましたが、その値は39.55605606となり、母集団の標準偏差、標本Aを作成するときに求めた標準偏差のいずれからも離れた値となりました。

下記のグラフは、標本1~30から平均値を1個ずつ抜き出して作成した1個の標本の偏差値を、その標本の平均値と標準偏差(平均値は719.0655556、標準偏差は7.22191473)を用いて偏差値に換算したものをグラフにしたものです。

結論

母集団の平均値や標準偏差を知ることができないときは、平均値は中心極限定理を使って求めてよいと思われるが、標準偏差はSTDEV.Sを使った方がより母集団のそれに近い値になるようです。
・・・???

この記事が気に入ったらサポートをしてみませんか?