【第17回】中心極限定理
本シリーズをお読みいただいているみなさま、ありがとうございます。
こちらのシリーズでは高等学校の数学や情報の授業実践をベースに記事を書いてきましたが、今回はこれまでの記事の背景となっている確率論や統計学の知識をこのあたりで一度整理する記事を書くことにしました。
これは前回記事の背景にある「ド・モアブル-ラプラスの定理」とその一般化である「中心極限定理」の関係について、整理をしてみたいと思ったのがきっかけです。自分の頭の中を一度整理し、次回以降の記事につなげて参りたいと思います。
準備
まず、用語や記号を簡単に整理しておくことにします。
二項分布B(n,p)
確率変数$${ X }$$が二項分布$${ B(n,p) }$$に従うとは、下記を意味します。
1回の試行で事象$${ A }$$が起こる確率を$${ p }$$として、この試行を$${ n }$$回繰り返し行ったときの、事象$${ A }$$が起こる回数を$${ X }$$とする。このときの$${ X }$$の値とその確率には対応関係
$$
P(X=r) = _nC_rp^r (1-p)^{n-r} \quad (r=0,1,2, \cdots , n)
$$
があり、このことを確率変数$${ X }$$が二項分布$${ B(n,p) }$$に従うという。
二項分布とベルヌーイ分布
「1枚のコインを投げたときに表が出るか裏が出るか」など、ある事象が起こるか起こらないかの二者択一であるような試行のことをベルヌーイ試行といいます。ある事象$${ A }$$が起こるときを確率$${ p }$$とし、変数$${ X }$$の値を事象$${ A }$$が起こるときは$${ 1 }$$、起こらない時は$${ 0 }$$と定めます。このとき、$${ X }$$の値とその確率の間には、
$$
\quad P(X=1) = p ,\qquad P(X=0)=1-p
$$
という対応関係があり、$${ X }$$は確率変数になります。
このときの確率変数$${ X }$$の従う確率分布を、成功確率$${ p }$$のベルヌーイ分布といいます。
1回の試行で事象$${ A }$$が起こる確率を$${ p }$$として、この試行を$${ n }$$回繰り返し行うような反復試行は、成功確率$${ p }$$のベルヌーイ試行を独立に$${ n }$$回行ったものです。つまり、確率変数$${ X_1, X_2, \ \cdots \ , X_n }$$が成功確率$${ p }$$のベルヌーイ分布に従うとき、$${ X = X_1 + X_2 + \ \cdots \ + X_n }$$とおくと、$${ X }$$は二項分布$${ B(n,p) }$$に従う確率変数になります。
二項分布の平均・分散
確率変数$${ X }$$の確率分布が下の表で与えられているとします。
このとき$${ X }$$の平均(期待値)、分散、標準偏差は次の式で定義されます。これは、記述統計学におけるこれらの統計量の定義と同じであることに注意してください。
平均: $${ E(X) = m = x_1p_1 + x_2p_2 + \ \cdots \ + x_np_n }$$
分散: $${ V(X) = (x_1-m)^2p_1 + (x_2-m)^2p_2 + \ \cdots \ + (x_n-m)^2p_n }$$
標準偏差: $${ \sigma (X) =\sqrt{V(X)} }$$
定義に従いますと、成功確率$${ p }$$のベルヌーイ分布に従う確率変数$${ X_1, X_2, \ \cdots \ , X_n }$$に対して、
$${ E(X_k) = 0 \cdot (1-p) + 1\cdot p = p }$$
$${ V(X_k) = (0-p)^2 \cdot (1-p) + (1-p)^2\cdot p = p(1-p) }$$
が成り立ちます。
また、今回の記事では証明はしませんが、$${ X, Y }$$を確率変数、$${ a, b }$$を実数の定数とするとき、次が成り立ちます。
平均: $${ E(aX + b) = aE(X) + b ,\quad E(X+Y)=E(X)+E(Y) }$$
分散: $${ V(aX + b) = a^2V(X) ,\qquad V(X+Y)=V(X)+V(Y) }$$
このことを用いますと、成功確率$${ p }$$のベルヌーイ分布に従う確率変数$${ X_1, X_2, \ \cdots \ , X_n }$$に対して、$${ X = X_1 + X_2 + \ \cdots \ + X_n }$$とおいた確率変数$${ X }$$について、次が成り立ちます。
$${ E(X) = E(X_1) + E(X_2) + \cdots + E(X_n) \\ \qquad = p + p + \cdots + p \\ \qquad = np }$$
$${ V(X) = V(X_1) + V(X_2) + \cdots + V(X_n) \\ \qquad = p(1-p) + p(1-p) + \cdots + p(1-p) \\ \qquad = np(1-p) }$$
これにより、二項分布$${ B(n,p) }$$に従う確率変数$${ X }$$の平均は$${ np }$$、分散は$${ np(1-p) }$$であるという結論を得ます。
標本平均の確率分布
ここで、標本調査について次のようなことを考えてみましょう。
平均$${ m }$$、分散$${ \sigma^2 }$$であるような母集団から、無作為に抽出した標本を$${ (X_1, X_2, \ \cdots \ , X_n) }$$とします。
このとき、 $${ X_1, X_2, \ \cdots \ , X_n }$$は母集団と同じ分布に従う確率分布ですので、次のことが成り立ちます。
$$
E(X_k) = m,\quad V(X_k) = \sigma^2 \quad (k=1,2, \cdots , n)
$$
このとき、標本平均を$${ \overline{X} = \frac{X_1 + X_2 + \ \cdots \ + X_n }{n} }$$とおくと、$${ \overline{X} }$$も確率変数で、平均と分散は上の性質を用いて計算し、次のようになります。
$${ E(\overline{X}) = \frac{E(X_1) + E(X_2) + \ \cdots \ + E(X_n) }{n} }$$
$${ \qquad = \frac{m + m + \ \cdots \ + m }{n} }$$
$${ \qquad = \frac{nm}{n} = m }$$
$${ V(\overline{X}) = \frac{V(X_1) + V(X_2) + \ \cdots \ + V(X_n) }{n^2} }$$
$${ \qquad = \frac{\sigma^2 + \sigma^2 + \ \cdots \ + \sigma^2 }{n^2} }$$
$${ \qquad = \frac{n\sigma^2}{n^2} = \frac{\sigma^2}{n} }$$
まとめますと、平均$${ m }$$、分散$${ \sigma^2 }$$の母集団から抽出された大きさ$${ n }$$の標本の平均を$${ \overline{X} }$$とすると、
$$
E(\overline{X}) =m,\qquad V(\overline{X}) = \frac{\sigma^2}{n}
$$
が成り立つことが分かりました。
中心極限定理
準備が長くなってしまいましたが本題に入っていきます。
前回の記事では、二項分布で試行回数を限りなく大きくしたときの確率分布として正規分布を導入しました。これは次の定理に基づいています。
この定理は次の「中心極限定理」と呼ばれている統計学の基本定理の特別な場合です。
こちらの中心極限定理が非常に強力な定理であるのは、母集団の確率分布が(一部例外はありますが)どのような分布であっても、$${ n }$$が十分大きいならば、標本平均$${ \overline{X} }$$は近似的に正規分布に従うという点です。
ド・モアブル-ラプラスの定理との関係
それでは、本記事のメインであります「中心極限定理とド・モアブル-ラプラスの定理の関係」をまとめていきます。
ド・モアブル-ラプラスの定理は一見すると、標本平均$${ \overline{X} }$$が出てきません。ここを丁寧に考えてみたいと思います。
ド・モアブル-ラプラスの定理の主張を、標本調査に合わせながら言い換えていきます。
成功確率$${ p }$$のベルヌーイ分布に従う母集団を考えます。母平均は$${ p }$$、分散は$${ p(1-p) }$$です。
その母集団から、大きさが$${ n }$$の標本$${ (X_1, X_2, \ \cdots \ , X_n) }$$を無作為に抽出します。
ここで、確率変数$${ X_1, X_2, \ \cdots \ , X_n }$$がベルヌーイ分布に従いますので、$${ X = X_1 + X_2 + \ \cdots \ + X_n }$$とおいた確率変数$${ X }$$は二項分布$${ B(n,p) }$$に従います。
標本$${ (X_1, X_2, \ \cdots \ , X_n) }$$の平均は、$${ \overline{X} = \frac{X_1 + X_2 + \ \cdots \ + X_n}{n} = \frac{X}{n} }$$です。
中心極限定理の主張から、$${ n }$$が十分大きいときの確率変数$${ \overline{X} =\frac{X}{n} }$$の分布は、平均$${ p }$$、分散$${ \frac{p(1-p)}{n} }$$の正規分布に近似的に従います。
このことから$${ n }$$が十分大きいとき、二項分布$${ B(n,p) }$$に従う確率変数$${ X }$$も正規分布に近似的に従い、平均と分散は次のようになります。
$${ E\left( \frac{X}{n} \right)= p }$$より、$${E(X) = np }$$
$${V\left(\frac{X}{n} \right) = \frac{p(1-p)}{n} }$$より、$${ V(X) = n^2\cdot \frac{p(1-p)}{n} = np(1-p) }$$
以上が、中心極限定理を仮定したときに、ド・モアブル-ラプラスの定理の主張が成り立つことの整理です。
再びサイコロの話へ
最後に前回の記事の「100個のサイコロを同時に投げた時に1の目が出るサイコロの個数を調べる試行を繰り返す」という例と結び付けていきます。
まず、100個のサイコロを同時に投げた時に1の目が出るサイコロの個数を$${ X }$$としたときの確率変数$${ X }$$の従う確率分布を考えます。
$${ X }$$は二項分布$${ B\left( 100,\frac{1}{6}\right) }$$に従い、
$$
E(X) = 100 \times \frac{1}{6} = \frac{50}{3} , \qquad V(X) = 100 \times \frac{1}{6} \times \left( 1-\frac{1}{6}\right)= \frac{125}{9}
$$
であることが分かります。
そして、同時に投げるサイコロの個数(100個の100の部分)を限りなく大きくしたときに、確率変数$${ X }$$は近似的に正規分布に従うというのが、ド・モアブル-ラプラスの定理の主張です。
一方で、今度は「100個のサイコロを同時に投げた時に1の目が出るサイコロの個数を調べる」という試行を$${ n }$$回繰り返すことを考えます。
$${ k }$$回目の試行で1の目が出るサイコロの個数を$${ Y_k }$$とすると、$${ Y_k }$$は二項分布$${ B\left( 100,\frac{1}{6}\right) }$$に従う確率変数であり、$${ (Y_1, Y_2, \ \cdots \ , Y_n) }$$は$${ n }$$回の試行の結果です。これは二項分布に従う母集団からの大きさ$${ n }$$の標本ととらえることができます。中心極限定理により、標本平均$${ \overline{Y} = \frac{Y_1 + Y_2 + \ \cdots \ + Y_n }{n} }$$は$${ n }$$を限りなく大きくしたとき、平均$${ \frac{50}{3} }$$、分散$${ \frac{125}{6n} }$$の正規分布に限りなく近づくことが分かります。
まとめ
今回は「中心極限定理とド・モアブル-ラプラスの定理の関係」を中心にまとめてみました。数学的な議論に特化した異色の回でしたが、これはこれで楽しく記事を書き進められました。
次回以降はまた、本シリーズ記事の趣旨に立ち返り、高等学校の情報の授業で$${ z }$$検定や$${ t }$$検定についてコンピュータを活用して学んでいく記事を書いていきます。
最後までお読みいただき、ありがとうございました。