見出し画像

分散分析でF検定統計統計量を用いる理由


分散分析は3標本以上の母平均の差の検定

分散分析とは母分散を検定しているのではなく、母分散の検定であるF検定を用いて3標本以上の母平均を検定する手法である

しかしなぜ母平均の検定で分散を計算しなければならないのかを明示的に書いている記事はなかなか見当たらないので今回纏めることにした

母平均の検定において分散を計算する理由

これは分散分析においての帰無仮説を考えればわかるのでまずは帰無仮説について考える

$${H_0 : \mu_1 = \mu_2 = \mu_3}$$は$${H_0 : \mu_1 -\mu_2 = 0  and  \mu_2 -\mu_3 = 0  and   \mu_3 -\mu_1 = 0}$$

これを確かめるためには$${ (\mu_1 -\mu_2) =   (\mu_2 -\mu_3) =  (\mu_3 -\mu_1) = 0}$$だと下記の例みたいに母平均の差が0ではない場合が含まれてしまう

$$
(\mu_1 -\mu_2) = -1  \\(\mu_2 -\mu_3) = 2\\ (\mu_3 -\mu_1) = 1
$$

そこで差の2乗を考えると帰無仮説の必要十分条件となる

$$
(\mu_1 -\mu_2)^2 =   (\mu_2 -\mu_3)^2 =  (\mu_3 -\mu_1)^2 = 0
$$

これは分散に出てくる平方和なので、母平均の検定に分散を確認することがわかる
では実際にどういうふうに分散を使っているかを下記で解説する

F値を活用する理由

先ほど母平均は各群の標本平均の分散( = 群間分散)を確認すれば良いことがわかったので、これを群内分散と比較することで母平均の差を検定する

$$
F_値 = \frac{群間分散}{群内分散}
$$

データ点と$${\overline{x_j}}$$との分散が群内分散で誤差の大きさを表す
データ点と$${\overline{\overline{x}}}$$からの分散が群間分散で効果の大きさを表す

各群の標本平均が互いに等しくなれば、$${ \mu_1 = \mu_2 = \mu_3 = \overline{\overline{x}} }$$ となり群内分散と群間分散の値が等しくなりF値が1となる


この記事が気に入ったらサポートをしてみませんか?