見出し画像

推測統計学/不偏推定量


使う記号と用語について

$$
\begin{array}{c|c|c}
&母集団&標本\\ \hline
平均&μ&\bar{x}\\ \hline
分散&σ^2&s^2\\ \hline
標準偏差&σ&s\\
\end{array}
$$

不偏推定量

 一般に推測統計は標本から母集団の特性を推測していくことになるが、分散においては「標本分散≦母分散」となる傾向にあるということを知っておく必要がある。つまり、標本から得た分散をそのまま母集団の統計量とすることはできないのです。
 ここで修正した統計量を「不偏推定量」と呼び、以下のように計算されます。

$$
\begin{array}{}
不偏平均&\hat{μ}=\dfrac{\sum^n_{i=1}x_i}{n}\\
 \\
不偏分散&\hat{σ}^2=\dfrac{\sum^n_{i=1}(x_i-\bar{x})^2}{n-1}\\
 \\
不偏標準偏差&\hat{σ}=\sqrt\dfrac{\sum^n_{i=1}(x_i-\bar{x})^2}{n-1}\\
\end{array}
$$

 ここから見てわかるように、分散の分母が$${n-1}$$になっており、値が大きくなるように修正されています。問題はこの$${n-1}$$の妥当性ですが、それを理解するために平均の標本分布について知っておく必要があります。

平均の標本分布

 具体例として中学生男子の身長で考えます。全国にいる中学生男子を母集団として平均身長を統計的に推定するとき、学校ごとに統計を集めたものを使うと思います。このとき、1校ごとのデータを母集団から抜き出した標本としてとらえます。するとそれぞれの標本の平均にはばらつきがあるはずです。中学生男子の平均が大体161cmらしいのですが、学校(標本)によっては159cmだったり164cmだったりするかもしれません。
 それでは、この平均の分布はどのように分布しているのでしょうか。多くの学校(標本)の平均は161cmに近いでしょうが、一部は母平均から離れた平均を持つでしょう。このような分布を平均の標本分布と言います。標本平均$${\bar{x}}$$の分布と言い換えられます。そして標本サイズ(標本の中にあるデータの数)が大きくなると標本分布は正規分布に近づくという重要な性質を持っています。これを中心極限定理と呼びます。

 通常推測統計学では標本から母集団のパラメータを推測することになりますが、より正確な推測のために標本ごとのズレを考える必要があります。

誤差分散

 さて、この標本分布の分散を求めていく。この分散を標本誤差分散と呼ぶ。各測定値を$${x_i}$$とすると標本誤差分散$${s^2_{\bar{x}}}$$は

$$
\begin{split}
s^2_{\bar{x}}&=V\Bigl(\dfrac{1}{n}\sum^n_{i=1}x_i\Bigl)\\
&=\dfrac{1}{n^2}V\Bigl(\sum^n_{i=1}x_i\Bigl)\\
&=\dfrac{1}{n^2}\sum^n_{i=1}V(x_i)\\
&=\dfrac{1}{n^2}\cdot ns^2\\
&=\dfrac{s^2}{n}
\end{split}
$$

と計算できる。定数倍は二乗して括りだせるという分散の性質、分散の線形性、確率変数の分散は母分散に等しいことを利用している。

 要するに、標本誤差分散は標本分散を標本サイズ$${n}$$で割ったものになることが分かる。つまり平均の標本分布は標本サイズが大きくなる(=沢山データをとる)と分散の小さい正規分布になる。沢山のデータをとると、その平均が母平均の近くまとまるというイメージを持ちたい。

 また、母分散$${σ^2}$$が分かっている場合、母誤差分散を導出できたり、標準偏差に該当する標準誤差も計算できる。

$$
σ^2_{\bar{x}}=\dfrac{σ^2}{n} 母標準誤差\\
\\
s_{\bar{x}}=\dfrac{s}{\sqrt{n}} 標本標準誤差\\
\\
σ_{\bar{x}}=\dfrac{σ}{\sqrt{n}} 母標準誤差\\
$$

 いずれにせよ、標本サイズ$${n}$$を大きくすることが正確な推定に欠かせません。

 ただし、通常行う調査では$${σ}$$や$${σ^2}$$は分かりません。また、標本サイズ$${n}$$もそこまで大きくすることはできません。要するに、母標準誤差や母標準誤差は標本から不偏推定量を推測しなければならないわけです。不偏推定量とは、母集団からのサンプルを元に推測した統計量(平均、分散、比率など)が、真の母集団のパラメータを推定する際に、偏りなく、つまり平均的に真の値に近づく性質を持つ推定量のことを指します。
 これらのことを踏まえて、以下のような計算式に書き換えます。この記事でも一番最初に述べたものになりますが、もう一度見ておきましょう。

$$
\begin{array}{}
不偏平均&\hat{μ}=\dfrac{\sum^n_{i=1}x_i}{n}\\
 \\
不偏分散&\hat{σ}^2=\dfrac{\sum^n_{i=1}(x_i-\bar{x})^2}{n-1}\\
 \\
不偏標準偏差&\hat{σ}=\sqrt\dfrac{\sum^n_{i=1}(x_i-\bar{x})^2}{n-1}\\
\end{array}
$$

では何故$${n-1}$$なのでしょうか。実をいうと扱う統計量によっては$${n-2}$$にもなります。この値を自由度と呼び、これの導出を試みます。

自由度

さて、自由度の導出をします。式を示した後に補足説明を入れます。

$$
\begin{array}{crl}
&σ^2&=\dfrac{\sum^n_{i=1}(x_i-μ)^2}{n}\\
&&=\dfrac{\sum^n_{i=1}(x_i-\bar{x})^2}{n}+\dfrac{σ^2}{n}\\
\Leftrightarrow &σ^2&=s^2+\dfrac{σ^2}{n}\\
\Leftrightarrow &nσ^2&=ns^2+σ^2\\
\Leftrightarrow &σ^2(n-1)&=\sum^n_{i=1}(x_i-\bar{x})^2\\
\Leftrightarrow &σ^2&=\dfrac{\sum^n_{i=1}(x_i-\bar{x})^2}{n-1}\\
\Leftrightarrow &&=\hat{σ}^2\\
\end{array}
$$

 一行目、母分散の計算には母平均$${μ}$$を使います。しかし、調査からは母平均を得ることはできないので、実際は標本平均$${\bar{x}}$$を使って計算することになります。(二行目)

 ただそれだと元の母分散からずれてしまいます。なので修正しているものが二行目になっています。
もっと詳しく言うなら、正規分布の真ん中に平均をもってきていたところからちょっとずれた$${\bar{x}}$$に移動したことで、母分散の方が標本分散より大きくなるはずです。その不足分を誤差分散を足すことで補っています。
あとは式を整理すれば自由度の部分が$${n-1}$$になることが分かります。

別の方向から導出

 標本分散は採取した標本に依存します。それが母分散からどれだけずれているかを検証するために、まずは標本分散の期待値を計算します。要するに標本分散の平均です。これを計算したときに$${n}$$と$${σ^2}$$が含まれる形に持っていければ標本分散と母分散の関係が明らかになります。まずは標本分散の式変形から

$$
\begin{split}
s^2&=\dfrac{1}{n}\sum^n_{i=1}(x_i-\bar{x})^2\\
&=\dfrac{1}{n}\sum^n_{i=1}(x_i-μ+μ-\bar{x})^2\\
&=\dfrac{1}{n}\sum^n_{i=1}\Bigr\{(x_i-μ)-(\bar{x}-μ)\Bigr\}^2\\
&=\dfrac{1}{n}\sum^n_{i=1}(x_i-μ)^2-\dfrac{2}{n}(\bar{x}-μ)\sum^n_{i=1}(x_i-μ)+\dfrac{1}{n}(\bar{x}-μ)^2\sum^n_{i=1}1\\
&=\dfrac{1}{n}\sum^n_{i=1}(x_i-μ)^2-\dfrac{2}{n}(\bar{x}-μ)\sum^n_{i=1}(x_i-μ)+(\bar{x}-μ)^2\\
\end{split}
$$

これの第二項のΣを計算する。

$$
\begin{split}
\sum^n_{i=1}(x_i-μ)&=(x_1-μ)+\cdots+(x_n-μ)\\
&=(x_1+\cdots+x_n)-nμ\\
&=n\bar{x}-nμ\\
&=n(\bar{x}-μ)\\
\end{split}
$$

これを元の式に代入すると

$$
\begin{split}
&=\dfrac{1}{n}\sum^n_{i=1}(x_i-μ)^2-\dfrac{2}{n}(\bar{x}-μ)\cdot n(\bar{x}-μ)+(\bar{x}-μ)^2\\
&=\dfrac{1}{n}\sum^n_{i=1}(x_i-μ)^2-2(\bar{x}-μ)^2+(\bar{x}-μ)^2\\
&=\dfrac{1}{n}\sum^n_{i=1}(x_i-μ)^2-(\bar{x}-μ)^2
\end{split}
$$

よって

$$
s^2=\dfrac{1}{n}\sum^n_{i=1}(x_i-μ)^2-(\bar{x}-μ)^2
$$

さて、これの期待値を計算していきます。

$$
E[s^2]=\dfrac{1}{n}\sum^n_{i=1}E[(x_i-μ)^2]-E[(\bar{x}-μ)^2]
$$

$${E[(x_i-μ)^2]}$$は母分散の$${n}$$倍、$${E[(\bar{x}-μ)^2]}$$は標本平均と母平均のズレを二乗した期待値なので、母誤差分散にあたります。よって

$$
\begin{split}
E[s^2]&=\dfrac{1}{n}\sum^n_{i=1}E[(x_i-μ)^2]-E[(\bar{x}-μ)^2]\\
&=\dfrac{1}{n}\cdot nσ^2-\dfrac{σ^2}{n}\\
&=\dfrac{n-1}{n}σ^2\\
\end{split}
$$

この式からわかるように、標本分散は平均して$${\frac{n-1}{n}}$$だけ母分散を過小評価していることになります。こういった理由から$${n-1}$$を自由度として用いています。

自由度の意味

 自由度は、ある合計値や平均値があるとき、自由にとれる値のことを言います。意味が分からんと思うので解説します。
 あるクラス20人の数学のテストの平均点を求めるとき、とりうる値の種類を考えます。するとそれぞれのテストの点数と、平均点の合計21種類が考えられます。しかし、21種類すべてに自由な(任意の)値を入れることはできません。20人のテストの点数が決まると、平均点は自ずと決定してしまうため、値の種類が21個であっても自由に値をとれるのは20個しかありません。つまり、この場合自由度は20になります。もし仮に絶対に100点を取る子がいれば、自由度は1下がります。
 不偏推定量で分散や標準偏差の自由度が$${n-1}$$になっているのは、推定する母平均もしくは母分散が既に決まっているからです。最初に導出した方は母分散が、別解の方は母平均を使っていますが、この値は母集団という確定的な存在から出てくるために定数になります。
 そういった理由で自由度が$${n-1}$$になっていると解釈しました。
(脳内完結なので間違ってる可能性はあるけどあくまで備忘録なのでゆるして)


この記事が気に入ったらサポートをしてみませんか?