見出し画像

7-2 母平均の二乗の不偏推定量 ~ 強敵・不偏推定量をゴリゴリ計算する

今回の統計トピック

標本からさまざまな統計量・不偏推定量を算出します。
具体的には、標本平均、標本平均の期待値と分散、母分散の不偏推定量(不偏分散)、母平均の二乗の不偏推定量に取り組みます。
数式パラダイスです!(ですのでイラストは使いません!)


公式問題集の準備

「公式問題集」の問題を利用します。お手元に公式問題集をご用意ください。
公式問題集が無い場合もご安心ください!
「知る」「実践する」の章で、のんびり統計をお楽しみください!

知る+問題を解く


📘公式問題集のカテゴリ

推定の分野
問2 $${\mu^2}$$の不偏推定量(データなし)

試験実施年月
統計検定2級 2016年11月 問11(回答番号22)

問題

公式問題集をご参照ください。

題意
平均$${\mu}$$、分散$${\sigma^2}$$の母集団より無作為抽出した、標本サイズ$${n}$$の標本$${X_1, X_2, \cdots, X_n}$$から、母集団の母分散$${\sigma^2}$$の不偏推定量と、母平均の二乗$${\mu^2}$$の不偏推定量を求めます。

今回の記事の構成
この記事は、通常の記事構成と違う章立てにいたします。
・「問題を解く」と「知る」の章を1つの章にまとめます。
・計算に専念します。EXCEL・Pythonはお休みします。

最初は「知る」のゾーンです。
推定量、不偏推定量の概要を確認しましょう。
その後、「問題を解く」のゾーンに移ります。

不偏推定量

📕公式テキスト:3.3.1 点推定(108ページ~)

母数
母集団を特徴づける定数を母数(パラメータ)と呼びます。
例えば、母平均、母分散、母比率です。

統計量
母集団より抽出した標本から得た関数を統計量と呼びます。
例えば、標本平均、標本分散、標本比率です。
推測統計では、観測値から計算された統計量の値に基づいて母数の値を推定します。

推定量
統計量を母数の推定に用いるときに、当該統計量を推定量と呼びます。
推定量には$${\hat{}}$$(ハット)を付けます。
例えば、母平均$${\mu}$$の推定量は$${\hat{\mu}}$$です。
母数を一般的に$${\theta}$$(シータ)で表すとき、推定量は$${\hat{\theta}}$$(シータ・ハット)です。

一致推定量
ある母数$${\theta}$$の推定量$${\hat{\theta}}$$が大数の法則$${\hat{\theta} \xrightarrow{P} \theta}$$を満たすことを一致性と呼び、一致性を満たす推定量$${\hat{\theta}}$$を一致推定量と呼びます。
標本平均$${\bar{X}}$$は母平均$${\mu}$$の一致推定量です。
標本分散$${s^2=\cfrac{1}{n}\displaystyle \sum^n_{i=1}(X_i-\bar{X})^2}$$は母分散$${\sigma^2}$$の一致推定量です。
直感的に、この2つの推定量が母集団の平均・分散と一致するように感じます。

不偏推定量
推定量$${\hat{\theta}}$$の期待値$${E[\hat{\theta}]}$$が母数$${\theta}$$と常に等しくなる性質「$${E[\hat{\theta}]=\theta}$$」を不偏性と呼び、不偏性を満たす推定量$${\hat{\theta}}$$を不偏推定量と呼びます。
特に母分散の不偏推定量を不偏分散(または標本不偏分散)と呼びます。

バイアス(偏り)
推定量が不偏推定量ではない場合、当該推定量にはバイアス(偏り)があると言います。
バイアス(偏り)は推定量の期待値と母数の差$${E[\hat{\theta}]-\theta}$$で表します。
不偏推定量は、$${E[\hat{\theta}]-\theta=0}$$→偏っていない→不偏なのです。

では解答に進みましょう。

問題を解く

【問題の概要】
母平均$${\mu}$$、母分散$${\sigma^2}$$の分布に独立に従う標本$${X_i \ (i=1, 2, \cdots, n)}$$を考えます。
ゴールは、母分散の不偏推定量と母平均の二乗の不偏推定量です。

【不偏推定量の計算の考え方】
不偏性の式「$${E[\hat{\theta}]=\theta}$$」を柔らかく表現してみます。
「期待値$${\boldsymbol{E[}}$$◯$${\boldsymbol{]=}}$$母数のとき、◯は母数の不偏推定量です」
つまり、「期待値$${E[}$$◯$${]=}$$母数」の形に数式を変形して、不偏推定量◯を特定します。

■母分散の不定推定量(不偏分散)を計算する場合
$${E[◯]=\sigma^2}$$を導出して、◯は$${\sigma^2}$$の不偏推定量、とします。
■母平均の二乗の不定推定量を計算する場合
$${E[◯]=\mu^2}$$を導出して、◯は$${\mu^2}$$の不偏推定量、とします。

【計算ステップ】
次の順番で計算します。
公式問題集の問題(4)と(5)に加えて、(1)~(3)の計算も行います。
(1) 標本平均$${\bar{X}}$$
(2) 標本平均の期待値$${E[\bar{X}]}$$
(3) 標本平均の分散$${V[\bar{X}]}$$
(4) 母分散$${\sigma^2}$$の不偏推定量$${\hat{\sigma}^2}$$
(5) 母平均の二乗$${\mu^2}$$の不偏推定量$${\hat{\mu}^2}$$

計算スタートです!

(1) 標本平均$${\boldsymbol{\bar{X}}}$$

標本平均は全ての標本を足して標本の大きさで割って求めます。
$${\bar{X}=\cfrac{X_1+X_2+\cdots+X_n}{n}}$$です。
総和記号$${\sum}$$を用いて数式をスッキリさせましょう。

$$
\bar{X}=\cfrac{1}{n}\displaystyle \sum^n_{i=1}X_i
\tag{1.1}
$$

(2) 標本平均の期待値$${\boldsymbol{E[\bar{X}]}}$$

$$
\begin{align*}
E[\bar{X}]&=E\left[ \cfrac{1}{n}\displaystyle \sum^n_{i=1}X_i \right] \ \cdots ①\\
&=\cfrac{1}{n}E\left[\displaystyle \sum^n_{i=1}X_i \right] \ \cdots ②\\
&=\cfrac{1}{n}\displaystyle \sum^n_{i=1}E[X_i]  \ \cdots ③\\
&=\cfrac{1}{n}\displaystyle \sum^n_{i=1}\mu \ \cdots ④\\
&=\cfrac{1}{n} n\mu \ \cdots ⑤\\
&=\mu \ \cdots ⑥\\
\end{align*}
$$

$$
E[\bar{X}]=\mu
\tag{1.2}
$$

標本平均$${\bar{X}}$$の期待値$${E[\bar{X}]}$$は$${\mu}$$です。
これは、$${\bar{X}}$$が母平均$${\mu}$$の不偏推定量$${\hat{\mu}}$$であること、つまり、標本平均が母平均の不偏推定量であることを示しています。
直感的に妥当な感じがします!

【計算の補足】
①$${(1.1)}$$より$${\bar{X}=\cfrac{1}{n}\displaystyle \sum^n_{i=1}X_i}$$
②期待値の公式$${E[aX]=aE[X]}$$を用いて定数$${1/n}$$を$${E}$$の外に出す
③期待値の公式$${E[X+Y]=E[X]+E[Y]}$$を用いて$${E[X_1+X_2+\cdots +X_n]=E[X_1]+E[X_2]+ \cdots +E[X_n]}$$となり、$${\sum}$$を$${E}$$の外に出す
④平均$${\mu}$$の分布に従う標本$${X_i}$$の期待値$${E[X_i]=\mu}$$
⑤全体が$${i}$$と無関係の項は$${\sum^n_{i=1}}$$で同一値を$${n}$$回足し上げる意味合いなので、$${\sum^n_{i=1} \mu}$$を$${n \mu}$$へ変形
⑥$${\cfrac{1}{n}}$$と$${n}$$を整理

(3) 標本平均の分散$${\boldsymbol{V[\bar{X}]}}$$

$$
\begin{align*}
V[\bar{X}]&=V\left[ \cfrac{1}{n}\displaystyle \sum^n_{i=1}X_i \right] \ \cdots ①\\
&= \left( \cfrac{1}{n} \right)^2 V \left[\displaystyle \sum^n_{i=1}X_i \right] \ \cdots ②\\
&=\cfrac{1}{n^2} \displaystyle \sum^n_{i=1}V[X_i] \ \cdots ③\\
&=\cfrac{1}{n^2} \displaystyle \sum^n_{i=1} \sigma^2 \ \cdots ④\\
&=\cfrac{1}{n^2} n \sigma^2 \ \cdots ⑤\\
&=\cfrac{\sigma^2}{n} \ \cdots ⑥
\end{align*}
$$

$$
V[\bar{X}]=\cfrac{\sigma^2}{n}
\tag{1.3}
$$

標本平均$${\bar{X}}$$の分散$${V[\bar{X}]}$$は$${\cfrac{\sigma^2}{n}}$$です。

【計算の補足】
①$${(1.1)}$$より$${\bar{X}=\cfrac{1}{n}\displaystyle \sum^n_{i=1}X_i}$$
②分散の公式$${V[aX]=a^2V[X]}$$を用いて定数$${1/n}$$を$${(1/n)^2}$$にして$${V}$$の外に出す
③分散の公式$${V[X+Y]=V[X]+V[Y]}$$(独立の場合)を用いて$${V[X_1+X_2+\cdots X_n]=V[X_1]+V[X_2]+ \cdots +V[X_n]}$$となり、$${\sum}$$を$${V}$$の外に出す
④分散$${\sigma^2}$$の分布に従う標本$${X_i}$$の分散$${V[X_i]=\sigma^2}$$
⑤全体が$${i}$$と無関係の項は$${\sum^n_{i=1}}$$で同一値を$${n}$$回足し上げる意味合いなので、$${\sum^n_{i=1} \sigma^2}$$を$${n \sigma^2}$$へ変形
⑥$${\cfrac{1}{n^2}}$$と$${n}$$を整理

(4) 母分散$${\boldsymbol{\sigma^2}}$$の不偏推定量$${\boldsymbol{\hat{\sigma}^2}}$$

最初に、公式テキストと同様に標本平均からの偏差平方和$${T_{xx}}$$を計算します。
続いて、偏差平方和$${T_{xx}}$$の期待値$${E[T_{xx}]}$$を計算します。
最後に、母分散$${\sigma^2}$$の不偏推定量を計算します。

■標本平均からの偏差平方和の計算
標本平均からの偏差平方和を$${T_{xx}=\displaystyle \sum^n_{i=1}(X_i-\bar{X})^2}$$と置きます。

$$
\begin{align*}
T_{xx}&=\displaystyle \sum^n_{i=1}(X_i-\bar{X})^2 \\
&=\displaystyle \sum^n_{i=1}(X_i- \mu - \bar{X} + \mu)^2 \ \cdots ①\\
&=\displaystyle \sum^n_{i=1}\{(X_i- \mu) - (\bar{X} - \mu)\}^2 \ \cdots ②\\
&=\displaystyle \sum^n_{i=1}\{ (X_i- \mu)^2 -2(X_i- \mu)(\bar{X} - \mu) + (\bar{X} - \mu)^2 \} \ \cdots ③\\
&=\displaystyle \sum^n_{i=1}(X_i- \mu)^2 - \displaystyle \sum^n_{i=1}2(X_i- \mu)(\bar{X} - \mu) + \displaystyle \sum^n_{i=1} (\bar{X} - \mu)^2 \ \cdots ④\\
&=\displaystyle \sum^n_{i=1}(X_i- \mu)^2 -2(\bar{X} - \mu) \displaystyle \sum^n_{i=1}(X_i- \mu) + n (\bar{X} - \mu)^2 \ \cdots ⑤\\
&=\displaystyle \sum^n_{i=1}(X_i- \mu)^2 -2(\bar{X} - \mu) n(\bar{X}-\mu) + n (\bar{X} - \mu)^2 \ \cdots ⑥\\
&=\displaystyle \sum^n_{i=1}(X_i- \mu)^2 -2n(\bar{X} - \mu)^2 + n (\bar{X} - \mu)^2 \ \cdots ⑦\\
&=\displaystyle \sum^n_{i=1}(X_i- \mu)^2 -n(\bar{X} - \mu)^2 \ \cdots ⑧
\end{align*}
$$

$$
T_{xx}=\displaystyle \sum^n_{i=1}(X_i- \mu)^2 -n(\bar{X} - \mu)^2
\tag{2.1}
$$

【計算の補足】
①括弧内に$${-\mu, +\mu}$$を追加($${-\mu+\mu=0}$$なので全体の値に影響しない)
②$${X_i-\mu}$$と$${\bar{X}-\mu}$$にわけて括弧でくくる
③$${\{\ \}}$$の中を展開
④Σの公式$${\sum^n_{i=1} (a_i+b_i)=\sum^n_{i=1} a_i+\sum^n_{i=1} b_i}$$を用いて、$${\sum}$$を各項に分ける
⑤$${i}$$と無関係の項は$${\sum}$$の外に出せるので$${2(\bar{X} - \mu)}$$を外に出す。
また、全体が$${i}$$と無関係の項は$${\sum^n_{i=1}}$$で同一値を$${n}$$回足し上げる意味合いなので、$${\sum^n_{i=1} (\bar{X} - \mu)^2}$$を$${n (\bar{X} - \mu)^2}$$へ変形
⑥$${\sum^n_{i=1}(X_i-\mu)=\sum^n_{i=1} X_i- \sum^n_{i=1} \mu =n\bar{X}-n\mu=n(\bar{X}-\mu)}$$。
なお$${\sum^n_{i=1} X_i}$$は、$${\bar{X}=1/n\sum^n_{i=1} X_i}$$より$${n\bar{X}=\sum^n_{i=1} X_i}$$
⑦$${2(\bar{X} - \mu) n(\bar{X}-\mu)}$$の$${(\bar{X}-\mu)}$$を整理
⑧$${-2n(\bar{X} - \mu)^2 + n (\bar{X} - \mu)^2}$$を整理

■偏差平方和の期待値の計算
$${T_{xx}}$$の期待値$${E[T_{xx}]=E \left[\displaystyle \sum^n_{i=1}(X_i- \mu)^2 -n(\bar{X} - \mu)^2 \right]}$$を計算します。

$$
\begin{align*}
E[T_{xx}]&=E \left[\displaystyle \sum^n_{i=1}(X_i- \mu)^2 -n(\bar{X} - \mu)^2 \right] \\
&=E \left[\displaystyle \sum^n_{i=1}(X_i- \mu)^2 \right]+E \left[-n(\bar{X} - \mu)^2 \right] \ \cdots ①\\
&=\displaystyle \sum^n_{i=1}E[(X_i- \mu)^2]-nE[(\bar{X} - \mu)^2] \ \cdots ②\\
&=\displaystyle \sum^n_{i=1}V[X_i]-nV[\bar{X}] \ \cdots ③\\
&=\displaystyle \sum^n_{i=1}\sigma^2-n\cfrac{\sigma^2}{n} \ \cdots ④\\
&=n\sigma^2-n\cfrac{\sigma^2}{n} \ \cdots ⑤\\
&=n\sigma^2-\sigma^2 \ \cdots ⑥\\
&=(n-1)\sigma^2 \ \cdots ⑦\\
\end{align*}
$$

$$
E[T_{xx}]=(n-1)\sigma^2
\tag{2.2}
$$

【計算の補足】
①期待値の公式$${E[X+Y]=E[X]+E[Y]}$$を用いて、右辺の期待値を第一項と第二項に分ける
②右辺第一項は、期待値の公式$${E[X+Y]=E[X]+E[Y]}$$を用いて$${E[X_1+X_2+\cdots +X_n]=E[X_1]+E[X_2]+ \cdots +E[X_n]}$$となり、$${\sum}$$を$${E}$$の外に出す。
右辺第二項は、期待値の公式$${E[aX]=aE[X]}$$を用いて定数$${-n}$$を$${E}$$の外に出す
③分散の定義$${V[X] \equiv E[(X-\mu)^2]}$$を用いて$${E[(X_i- \mu)^2]=V[X_i]}$$に置き換え、$${E[(\bar{X}- \mu)^2]=V[\bar{X}]}$$は下の(※)参照
④分散$${\sigma^2}$$の分布に従う標本$${X_i}$$の分散$${V[X_i]=\sigma^2}$$。
また$${(1.3)}$$より$${V[\bar{X}]=\cfrac{\sigma^2}{n}}$$
⑤全体が$${i}$$と無関係の項は$${\sum^n_{i=1}}$$で同一値を$${n}$$回足し上げる意味合いなので、$${\sum^n_{i=1}\sigma^2}$$を$${n \sigma^2}$$へ変形
⑥$${n\cfrac{\sigma^2}{n}}$$を整理
⑦$${\sigma^2}$$について整理

(※)$${E[(\bar{X}- \mu)^2]=V[\bar{X}]}$$
$${E[(\bar{X}- \mu)^2]}$$
$${=E[ \{ \frac{1}{n}(X_1+X_2+\cdots +X_n-n\mu)\}^2 ] }$$
$${=E[ \frac{1}{n^2} \{  (X_1-\mu)+(X_2-\mu)+\cdots +(X_n-\mu)\}^2]}$$
$${=E[ \frac{1}{n^2} \sum^n_{i=1} (X_i-\mu)^2]}$$
$${= \frac{1}{n^2} E[ \sum^n_{i=1} (X_i-\mu)^2 ]}$$
$${= \frac{1}{n^2} \sum^n_{i=1} E[(X_i-\mu)^2]}$$
$${= \frac{1}{n^2} \sum^n_{i=1} V[X_i]}$$
$${= \frac{1}{n^2} \sum^n_{i=1} \sigma^2}$$
$${= \frac{1}{n^2} n \sigma^2}$$
$${=\sigma^2/n}$$
$${=V[\bar{X}]}$$

■母分散の不偏推定量の計算
$${E[T_{xx}]=(n-1)\sigma^2}$$を$${E[◯]=\sigma^2}$$の形にします。

$$
\begin{align*}
E[T_{xx}]&=(n-1)\sigma^2\\
\cfrac{1}{n-1}E[T_{xx}]&=\sigma^2 \ \cdots ①\\
E \left[\cfrac{1}{n-1}T_{xx} \right]&=\sigma^2 \ \cdots ②\\
E \left[\cfrac{1}{n-1}\displaystyle \sum^n_{i=1}(X_i-\bar{X})^2 \right]&=\sigma^2 \ \cdots ③\\
\end{align*}
$$

$$
\hat{\sigma}^2=\cfrac{1}{n-1}\displaystyle \sum^n_{i=1}(X_i-\bar{X})^2
\tag{2.3}
$$

(ア)の解答は上の式 2.3 となります

$${\cfrac{1}{n-1}\displaystyle \sum^n_{i=1}(X_i-\bar{X})^2}$$は、母分散$${\sigma^2}$$の不偏推定量(不偏分散)$${\hat{\sigma}^2}$$です。
標本分散$${s^2=\cfrac{1}{n}\displaystyle \sum^n_{i=1}(X_i-\bar{X})^2}$$が不偏推定量にならないことに注意しましょう。
不偏分散は、標本サイズ$${n}$$で割るのではなく、標本サイズから$${1}$$を差し引いた$${n-1}$$で割っています。

【統計検定の受験の留意点】
不偏分散の式(導出結果)を覚えておいたほうがよいです。
試験中に不偏分散の式を導出するのは、試験時間がもったいないです。

【計算の補足】
①両辺に$${\cfrac{1}{n-1}}$$を掛ける
②期待値の公式$${E[aX]=aE[X]}$$を用いて定数$${\cfrac{1}{n-1}}$$を$${E}$$の中に入れる
③$${T_{xx}=\displaystyle \sum^n_{i=1}(X_i-\bar{X})^2}$$

(5) 母平均の二乗$${\boldsymbol{\mu^2}}$$の不偏推定量$${\boldsymbol{\hat{\mu}^2}}$$

分散の公式$${V[X]=E[X^2]-(E[X])^2}$$と、$${(1.3) \ V[\bar{X}]=\cfrac{\sigma^2}{n}}$$を用いて、$${\mu^2}$$の不偏推定量を計算します。
$${E[◯]=\mu^2}$$の形にします。

$$
\begin{align*}
\cfrac{\sigma^2}{n}&=V[\bar{X}]=E[\bar{X}^2]-(E[\bar{X}])^2 \ \cdots ①\\
\cfrac{\sigma^2}{n}&=E[\bar{X}^2]-\mu^2 \ \cdots ②\\
E[\bar{X}^2]-\cfrac{\sigma^2}{n}&=\mu^2 \ \cdots ③\\
E[\bar{X}^2]-\cfrac{1}{n}E[\hat{\sigma}^2]&=\mu^2 \ \cdots ④\\
E[\bar{X}^2]-E \left[\cfrac{\hat{\sigma}^2}{n} \right]&=\mu^2 \ \cdots ⑤\\
E \left[\bar{X}^2-\cfrac{\hat{\sigma}^2}{n} \right]&=\mu^2 \ \cdots ⑥ 
\end{align*}
$$

$$
\hat{\mu}^2=\bar{X}^2-\cfrac{\hat{\sigma}^2}{n}
\tag{2.4}
$$

(イ)の解答は上の式 2.4 となります

$${\bar{X}^2-\cfrac{\hat{\sigma}^2}{n}}$$は、母平均の二乗$${\mu^2}$$の不偏推定量$${\hat{\mu}^2}$$です。

母平均$${\mu}$$の不偏推定量が標本平均$${\bar{X}}$$なので、直感的に、母平均の二乗$${\mu^2}$$の不偏推定量は標本平均の二乗$${\bar{X}^2}$$になりそうが感じがします。
しかし、計算結果は「標本平均の二乗から不偏分散$${/n}$$を引いた$${\bar{X}^2-\cfrac{\hat{\sigma}^2}{n}}$$」になりました。
面白いですね!

【計算の補足】
①分散の公式$${V[X]=E[X^2]-(E[X])^2}$$の確率変数を$${\bar{X}}$$に置き換えて、$${V[\bar{X}]=\cfrac{\sigma^2}{n}}$$と繋げる
②$${(1.2)}$$より$${E[\bar{X}]=\mu}$$
③右辺が$${\mu^2}$$だけになるように整理
④$${\hat{\sigma}^2}$$は$${\sigma^2}$$の不偏推定量であり、$${E[\hat{\sigma}^2]=\sigma^2}$$が成り立つ
⑤期待値の公式$${E[aX]=aE[X]}$$を用いて定数$${\cfrac{1}{n}}$$を$${E}$$の中に入れる
⑥期待値の公式$${E[X+Y]=E[X]+E[Y]}$$を用いて、1つの$${E}$$に統合する

解答

② (ア)$${\hat{\sigma}^2=\cfrac{1}{n-1}\displaystyle \sum^n_{i=1}(X_i-\bar{X})^2}$$、(イ)$${\bar{X}^2-\cfrac{\hat{\sigma}^2}{n}}$$ です。

難易度 ややむずかしい

・知識:不偏推定量、不偏分散、期待値・分散の公式、標本平均の期待値・分散
・計算力:数式組み立て(中)、数式計算(中)
・時間目安:2分(不偏分散は公式暗記で対応)

重要な公式のまとめ

平均$${\mu}$$、分散$${\sigma^2}$$の母集団より無作為抽出した、標本サイズ$${n}$$の標本$${X_1, X_2, \cdots, X_n}$$について、
・標本平均$${\bar{X}=\cfrac{1}{n}\displaystyle \sum^n_{i=1}X_i}$$
・標本平均$${\bar{X}}$$の期待値$${E[\bar{X}]=\mu}$$
 (標本平均$${\bar{X}}$$は母平均$${\mu}$$の不偏推定量)
・標本平均$${\bar{X}}$$の分散$${V[\bar{X}]=\cfrac{\sigma^2}{n}}$$
・母分散$${\sigma^2}$$の不偏推定量(不偏分散)$${\hat{\sigma}^2=\cfrac{1}{n-1}\displaystyle \sum^n_{i=1}(X_i-\bar{X})^2}$$


おわりに

標本にかかわるさまざまな統計量・推定量を数式表現で計算しました。
計算結果である「公式」を覚えればサッと解けるのでしょう。
けれども、数式を追いかけることによって、公式の成り立ちを理解でき、しかも計算途中に用いる「他の公式」の理解に繋がります。

統計検定2級を受験する場合、2級合格を優先するならば、なるべく公式を記憶すると同時に難しい公式・数式は諦めるという戦法があります。
上位の準1級、1級を視野に入れる場合には、数式表現で解くことが重要になります。

最後までお読みいただきまして、ありがとうございました。


のんびり統計シリーズの記事

次の記事

前の記事

目次

この記事が気に入ったらサポートをしてみませんか?