見出し画像

カイ2乗検定統計量がなぜカイ2乗分布に従うのか


カイ2乗検定統計量はパっと見よくわからん形してる

t検定の検定統計量は標準化していて式の意味がわかりやすいのに対して
カイ2乗検定統計量は以下のように意味わからん形をしている

$$
\begin{aligned}
& \sum_i\frac{(観測度数_i - 期待度数_i)^2}{期待度数_i} \\{}\\
&= \sum_i \frac{(O_i - E_i)^2}{E_i}
\end{aligned}
$$

特に観測度数と期待度数がいきなり出てきて確率分布に従うわけないやん!と思ったのでここで簡単に証明をまとめていく

その前にカイ2乗検定の特質を前提としておさえておかないと証明がようわからんくなるので、下記導入から始めていく

カイ2乗検定は2群で比較する2×○の分割表で使える

例えば血液型A,B,AB,O型の人たちが独身か否かという
2×4の分割表があるとする

独立するか否かというところが2群になっているので
このデータで血液型別に独身差があるかどうかが確認できる
つまり2×○の分割表では$${\chi^2}$$検定は使用できる

一方で
血液型A,B,AB,O型の人たちが
年収400以下か年収400〜800か年収800以上かという
3×4の分割表があるとする

年収が3群になっているのでこのデータで血液型別に年収差があるかどうかが確認できないつまり2×○以外の分割表では$${\chi^2}$$検定は使用できない

(補足)カイ2乗検定は3群で使うには検定の多重性に注意

ちなみに3群で$${\chi^2}$$検定を行う際は
3通りの2群に分けて行う

  1. 年収400以と年収400〜800

  2. 年収400〜800と年収800以上

  3. 年収400以下と年収800以上

ただこのままだと
多重検定になってしまうので、繰り返し検定を実行する時はp値を厳しく設定しなければならない

p値を厳しくする1番簡単な方法は
例えばBonferroni法などがあり、検定を実行した回数で割れば良い
今回だと有意水準5%だとp値は$${0.05÷3=0.017}$$となる

https://www.stats-guild.com/analytics/15650

カイ2乗検定と二項分布の結びつき

上記の通り$${\chi^2}$$検定は基本的に2群で比較する際に用いるのであった

2×○以外の分割表において
2群を「成功」と「失敗」のベルヌーイ試行とすれば
このベルヌーイ試行に対して○群がとる度数は確率変数となり、その確率分布は二項分布になる

なので、独身か否かと血液型の2×4の分割表にあてはめると

血液型ごと独身数は観測度数とし確率変数$${X_i}$$
血液型ごと独身の期待確率を$${p_i}$$
血液型ごと独身の期待度数を$${np_i}$$

下記の公式に当てはめると

$$
\begin{aligned}
\\{}\\{}
& \sum_i\frac{(観測度数_i -期待度数_i)^2}{期待度数_i}\\{}\\
&= \sum_i \frac{(O_i -E_i)^2}{E_i}
\\{}\\
&= \sum_i \frac{(X_i -np_i)^2}{np_i}
\end{aligned}
$$

カイ2乗検定統計量がカイ2乗分布に従う証明

今回は血液型が4種類で$${i = 1,2,3,4}$$だが証明がかなり煩雑で難しくなる

イメージをつかせてもらうために
調べたいグループが2種類のとき$${i = 1,2}$$の場合で考える

上記の検定統計量を実施に計算すると

$$
\begin{aligned}
& \sum_i \frac{(X_i -np_i)^2}{np_i}
\\{}\\
&= \frac{(X_1 - np_1)^2}{np_1} + \frac{(X_2 - np_2)^2}{np_2}
\\{}\\
&= \frac{(X_1 - np_1)^2}{np_1} + \frac{((n-X_1) - n(1 - p_1))^2}{n( 1 - p_1)}
\\{}\\
&= \frac{(X_1 - np_1)^2}{np_1} + \frac{(X_1 - np_1)^2}{n( 1 - p_1)}
\\{}\\
&= (X_1 - np_1)^2 \frac{(1-p_1) + p_1}{np_1(1-p_1)}
\\{}\\
&= (\frac{X_1-np_1}{\sqrt{np_1(1-p_1)}})^2
\end{aligned}
$$

ここで,$${p_1}$$ は「ある個体がグループ$${1}$$に属する確率」と考えられるので

「$${n}$$個の個体のうち,グルー プ$${1}$$に属している数」を表す $${X_1}$$ は二項分布 $${B(n, p1)}$$ にしたがう

$${B(n, p1)}$$ の期待値は $${np_1}$$分散 は $${np_1(1 − p_1)}$$ なので
中心極限定理により、$${n}$$が大きいとき

$$
\frac{X_1-np_1}{\sqrt{np_1(1-p_1)}}
$$

は標準正規分布にしたがう

よってそれの2乗になっている

$$
(\frac{X_1-np_1}{\sqrt{np_1(1-p_1)}})^2
$$

は自由度 $${1}$$(すなわち $${2}$$ − $${1}$$)の $${\chi^2}$$ 分布にしたがう


この記事が気に入ったらサポートをしてみませんか?