見出し画像

不偏分散はなぜn-1で割るのか

こんにちは、ゆるです。前回の記事から少し時間が空いてしまいましたが、今回は不偏分散について扱いたいと思います。この不偏分散も何となくのイメージで使用している方が多いのではないでしょうか?今回は推定量の不偏性に触れつつなぜ$${n-1}$$で割るのか、$${n}$$や$${n-2}$$ではダメなのかについて書いていきたいと思います。今回の記事を執筆するにあたり、以下の書籍を参考にしました。

導入

ある分布から得られた標本$${X_1, X_2,…, X_n}$$を用いてその分布の分散を推定するとき、不偏分散

$$
{V = \frac{1}{n-1}\sum_{i=1}^{n}(X_i-\overline{X})^2}
$$

を用いることが多いと思います(但し、$${\overline{X}}$$は標本平均$${\frac{1}{n}\sum_{i=1}^{n}X_i}$$を表します)。この$${n-1}$$で割る意味について考えたことがあるでしょうか?分布の分散というのは「分布が平均からどれくらい広がっているかを表す指標」なので、よく定性的な説明をする場合に「不偏分散$${V}$$の中に$${\overline{X}}$$という平均の推定値が入っていて、その不確実さ故に平均からの広がりを緩く(大きく)見積もるために$${n-1}$$で割る」と言われることがあります。この説明は正しいのですが、それだと$${n-2}$$や$${n-3}$$ではなく$${n-1}$$にする必然性がありません。しかし不偏分散を計算する上では確かに$${n-1}$$ではないといけない理由があります。そのために「不偏分散」の「不偏」とは何を指すのかについて触れていきたいと思います。

推定量の不偏性

不偏分散は母集団分布の分散の推定量の一つとなりますが、そもそも「推定量」というのは標本から構成される関数で、分布の特徴を表すパラメータを見積もる量になります。例えば平均$${\mu}$$、分散$${\sigma^2}$$の分布から標本$${\boldsymbol{X}=(X_1, X_2,…, X_n)}$$が得られた場合、$${\mu}$$を標本平均$${\overline{X}}$$で推定することが多いと思います。この$${\overline{X}}$$は標本から構成される関数$${f(\boldsymbol{X})}$$になります。ここで重要なことは確率変数から構成される関数は同様に確率変数になるということです。そのため、推定量$${f(\boldsymbol{X})}$$についても期待値$${E[f(\boldsymbol{X})]}$$や分散$${V[f(\boldsymbol{X})]}$$を計算することができます。ここで重要になってくるのが推定量の不偏性という概念で、以下の性質を満たすことを指します。

分布$${D}$$がパラメーター$${\theta}$$を持ち、$${D}$$から得られた標本$${\boldsymbol{X}=(X_1, X_2,…, X_n)}$$を用いて$${\theta}$$の推定量$${\hat{\theta}(\boldsymbol{X})}$$を構成する場合を考える。ここで、$${\hat{\theta}(\boldsymbol{X})}$$が$${E[\hat{\theta}(\boldsymbol{X})]=\theta}$$を満たすとき、$${\hat{\theta}(\boldsymbol{X})}$$は$${\theta}$$の不偏推定量であるという。

少し抽象的かもしれないので、具体例を挙げてみます。

確率変数$${X}$$がパラメーター$${\mu}$$を持つ分布$${D}$$に従っているとする。ここで$${\mu}$$は$${D}$$の平均、つまり$${E[X]=\mu}$$とする。$${D}$$から標本$${X_1, X_2,…,X_n}$$が得られた時、標本平均$${\overline{X}=\frac{1}{n}\sum_{i=1}^{n}X_i}$$が平均$${\mu}$$の不偏推定量となることを示せ。

以下解答例を書きますが、一旦ここで止まり、是非自分で手を動かして証明してみましょう。推定量が不偏性を持つかどうか検証するには推定量の期待値を求めます。

$$
{\begin{split} E[\overline{X}]&=E[ \frac{1}{n}\sum_{i=1}^{n}X_i ]\\
&=\frac{1}{n}\sum_{i=1}^{n}E[X_i]\\
&=\frac{1}{n}\sum_{i=1}^{n}\mu\\
&=\frac{1}{n}n\mu\\
&=\mu\\
\end{split}}
$$

1行目から2行目は期待値の線形性($${E[aX+bY]=aE[X]+bE[Y]}$$)から導かれます。以上より、標本平均$${\overline{X}}$$の期待値は母集団分布の平均$${\mu}$$に等しくなり、標本平均が平均に対する不偏推定量であることが示されました。

ではここで母集団分布の平均を$${\mu}$$、分散を$${\sigma^2}$$としたとき、不偏分散の期待値を求めてみましょう。

$$
{E[V] = E[\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\overline{X})^2}]
$$

おそらくここからどう計算すればいいのか戸惑う方が多いのではないでしょうか?そこで以下の重要な恒等式を利用します。

$$
{\sum_{i=1}^{n}(X_i-\mu)^2=\sum_{i=1}^{n}(X_i-\overline{X})^2+n(\overline{X}-\mu)^2}
$$

この恒等式は以下のようにすれば分かりやすく証明できます。

$$
{\begin{split} \sum_{i=1}^{n}(X_i-\mu)^2-\sum_{i=1}^{n}(X_i-\overline{X})^2&=\sum_{i=1}^{n}\{(X_i-\mu)^2-(X_i-\overline{X})^2\}\\
&=\sum_{i=1}^{n}(\overline{X}-\mu)(2X_i-\mu-\overline{X})\\
&=(\overline{X}-\mu)\sum_{i=1}^{n}(2X_i-\mu-\overline{X})\\
&=(\overline{X}-\mu)(2n\overline{X}-n\mu-n\overline{X})\\
&=n(\overline{X}-\mu)^2\\
\end{split}}
$$

1行目から2行目は二乗引く二乗の因数分解($${a^2-b^2=(a-b)(a+b)}$$)を用いています。以上より、不偏分散の期待値は以下のようになります。

$$
{\begin{split} E[V]&=E[\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\overline{X})^2]\\
&=\frac{1}{n-1}E[\sum_{i=1}^{n}(X_i-\mu)^2-n(\overline{X}-\mu)^2]\\
&=\frac{1}{n-1}E[\sum_{i=1}^{n}(X_i-\mu)^2]-\frac{1}{n-1}E[n(\overline{X}-\mu)^2]\\
&=\frac{1}{n-1}\sum_{i=1}^{n}E[(X_i-\mu)^2]-\frac{n}{n-1}E[(\overline{X}-\mu)^2]\\
&=\frac{1}{n-1}\sum_{i=1}^{n}\sigma^2-\frac{n}{n-1}\frac{\sigma^2}{n}\\
&=\frac{n}{n-1}\sigma^2-\frac{1}{n-1}\sigma^2\\
&=\frac{n}{n-1}\sigma^2-\frac{1}{n-1}\sigma^2\\
&=\sigma^2\\
\end{split}}
$$

4行目から5行目の第一項では分散の定義式に従い変形を、第二項では分散の定義式において標本平均の分布(平均$${\mu}$$、分散$${\sigma^2/n}$$)として考えた変形をしています。
以上より、不偏分散の期待値が母集団分布の分散であることが示され、不偏分散が「不偏」たる所以がイメージできたかと思います。
ここで大事なことは、不偏分散の分母が$${n}$$や$${n-1}$$であった場合、期待値が母集団分布の分散に等しくならず、不偏性が損なわれることです。以上より、不偏分散は$${n-1}$$で割ることによってその不偏性が達成されていると言えます。

おわりに

以上、不偏分散はなぜ$${n-1}$$で割るのかについて扱いました。これまでは「分散を大きめに見積もる」というふわっとした理解だった方も数理の背景から不偏性という概念に基づいて理解できたのではないでしょうか。ここの理解は実際にデータを解釈する上ではそこまで大きな影響を与えないのですが、自分の提示する推定量がどういった性質を持っているのか日頃から意識することは、高度なデータ分析をする上で不可欠になってきます。この記事が数理統計学への入り口の一つとなれば幸いです!
以上、最後まで読んで頂きありがとうございました。次回もよろしくお願いします!

【更新履歴】
2023/09/10 初稿投稿

この記事が気に入ったらサポートをしてみませんか?