カイ2乗検定の検定統計量（丸暗記なし）

Kai.lazykoala

2024年1月3日 23:26

検定統計量は差をスケールを合わせてる

t検定では母平均から標本平均がどれくらい差があるのかを
標準偏差で割ってデータによらないスケールを合わせ（標準化）
をしただけだった

$$
t = \frac{\bar{x} - \mu}{\sqrt{\frac{s^2}{n}}}
$$

なぜ差を標準化させる必要があるのかについては
詳しくは前回の記事を参考

https://note.com/outlifest/n/n66ef1b9dfde6

この「差をスケールを合わせて評価する」
という抽象的な核だけおさえていれば
$${\chi^2}$$検定の検定統計量も丸暗記せずになんとなく導出できる

カイ2乗検定統計量のイメージ

$${\chi^2}$$検定の帰無仮説から確認しよう

帰無仮説は
「観測度数は期待度数と差がない」
というものだった

たとえば宿の予約システムにて新機能の実装前と後で
ホテルが予約がされたかされていないかに
差が生まれたかをどうかを確認したいとしよう
（上記を一般にABテストというが今回はベイズABではなく古典的な$${\chi^2}$$検定を考える）

ここでいう
観測度数と期待度数は

新機能実装前に予約したのが5人していないのが95人
新機能実装後に予約したのが15人していないのが85人
この5人,95人,15人,85人が観測度数

これが機能間で予約数の差がなかったら
新機能前と後の数値を平均で計算することで
新機能実装前に予約したのが10人していないのが90人
新機能実装後に予約したのが10人していないのが90人
となりこの10人,90人が期待度数となる

さて「差をスケールを合わせて評価する」というアイデアに戻って
今回のケースに当てはめたい
スケールは期待度数で割り算すれば合わせそうなので

$$
\\{}
\\{}
\sum_i\frac{観測度数_i -期待度数_i}{期待度数_i}
$$

これでもいいかもしれないですが
これに対応する確率分布はないので
有意差があるかどうかを分布表で確認できないからめちゃ困る

そこで和の形が入っている$${\chi^2}$$分布に着目する

観測度数と期待度数の差の2乗和を$${\chi^2}$$統計量として計算すると、この統計量が自由度とともに$${\chi^2}$$分布に近似的に従うことが中心極限定理によって示されている
（詳細は長くなるので割愛）
この近似が成り立つことにより、統計的な有意性の評価が可能になるので
差の2乗を下記のように計算することで検定統計量が導ける

$$
\\{}
\\{}
\sum_i\frac{(観測度数_i -期待度数_i)^2}{期待度数_i}
$$

カイ2乗検定統計量の具体例

先ほどの例に戻って
統計検定量を計算すると

$$
\frac{(5-10)^2}{10} + \frac{(15-10)^2}{10} +\frac{(95-90)^2}{90} +\frac{(85-90)^2}{90} \\
= 5.5556
$$

で自由度1でp値は0.0184（< 0.05）なので
有意水準5％で有意差があることがわかった

また他の検定統計量のざっくりイメージだけ知りたい場合は下記を参照