見出し画像

【統計学】ピアソンのカイ二乗検定の統計量、分母が分散ではなく期待値なのが納得いかないので証明してみた

ピアソンのカイ二乗検定

$$
\chi^2=\sum \dfrac{(O-E)^2}{E}
$$

 ピアソンの$${\chi^2}$$検定で出てくる統計量です。適合性、独立性などありますが、多分全部これです。$${O}$$は観測値、$${E}$$は期待値をざっくり表しています。
 この統計量を二項分布近似で書くと、試行回数$${n}$$、起こりうる事象の数を$${k}$$、その連番を$${i}$$、事象毎の確率変数と確率をそれぞれ$${X_i ,p_i}$$として、

$$
\chi^2=\sum_{i=1}^{n} \dfrac{(X_i-np_i)^2}{np_i}
$$

となります。$${期待値 \ E=np}$$ですね。
 この式をぱっと見ると、普通こう考えるのではないでしょうか。

「$${\chi^2}$$分布は、標準正規分布$${N(0,1)}$$の二乗。$${標準偏差=\sqrt{np(1-p)}}$$で標準化した変数$${Z=\dfrac{X-np}{\sqrt{np(1-p)}}}$$なら標準正規分布になるが、分母に$${1-p}$$が足りない。割り忘れているのではないか?納得できん。」

 もちろんそんなことはなく、結論から言うと、複数ある確率変数(異なる事象に対応)の統計量を一つに寄せ集めると、ある$${X_i}$$のみに関する標準正規分布の2乗にちゃんとなっているのです。そしてそれは、コインの表裏のように事象が2つだけの時は簡単に証明できるのですが、それ以上になるとそれなりの線形代数の知識が必要になります。
 ちゃんとした証明や視覚化は、こちらのリンクの論文にお任せするとして、

今回は、比較的簡単な2変数の場合の証明を拡張し、3,4変数、そして気合いで一般化するというやり方をやってみました。数学の厳密性は保証の限りではありませんが、まあ納得はし易い気がします。
 ちなみに、この統計量は、カイ2乗分布に従うことの証明が為されないまま使われていることが多く、このことを指摘する専門家の意見(下記リンク)も承知していましたが、未解決のまましばらく抱えていて、今回、なんとか自力でやってみたものです。

2変数の場合

 例えば、コインの表と裏だけを考えるような場合です。
 試行回数を$${n}$$、そのうち表の出た回数を$${X_1}$$、裏の出た回数を$${X_2}$$とします。当然ですが、$${X_1 +X_2 = n}$$です。試行回数$${n=10}$$のとき、表が6回なら裏は4回、表が3回なら裏は7回になります。
 表裏どちらの確率も$${1/2}$$ですが、一般的な場合(表と裏の出る確率が異なる場合)を想定し、表の出る確率を$${p_1}$$、裏の出る確率を$${p_2}$$とします。この2つで全事象なので当然、$${p_1 +p_2 = 1}$$です。$${p_1=\dfrac{1}{3}}$$なら$${p_2=\dfrac{2}{3}}$$ですね。$${x}$$も$${p}$$も、2つが相互補完するような関係になっています。
 ここで、対象の統計量($${(1-p)}$$で割るのを忘れた標準化変数の2乗のような量)を$${S}$$と名前をつけると、こうなります。

$$
S = \dfrac{(X_1 - np_1)^2}{np_1} + \dfrac{(X_2 - np_2)^2}{np_2}\\
但し、\\
X_1 +X_2 = n\\
p_1 +p_2 = 1
$$

 ここで、見た目をスッキリさせるため、以下のように定義、略記します。

$$
T_1=X_1 - np_1, \ T_2=X_2 - np_2,
$$

 さて、ここで$${T_2}$$は、$${X_2 =n-X_1, \ p_2=1-p_1}$$を代入して、

$$
T_2=X_2 - np_2 =(n-X_1)-n(1-p_1)=-(X_1-np_1)
$$

となります。要するに、上の2乗の中身が逆符号であるが大きさは一致するということですね。ということは、2乗すれば同じになります。よって、$${S}$$の式$${S = \dfrac{T_1^2}{np_1} + \dfrac{T_2^2}{np_2}}$$は、

$$
S = \dfrac{T_1^2}{np_1} + \dfrac{T_1^2}{np_2} = \dfrac{T_1^2}{n} \left( \dfrac{1}{p_1}+\dfrac{1}{p_2}\right)= \dfrac{T_1^2}{n p_1 p_2} (p_1 + p_2)
$$

と計算されますが、 $${p_1 +p_2 = 1}$$なので、結局、

$$
S =  \dfrac{T_1^2}{n p_1 (1 - p_1)}
$$

 となり、$${X_1}$$の方に焼き直すと、一見割るのを忘れた$${(1-p_1)}$$がしっかりと出現するので、$${S}$$は、確率変数$${X_1}$$に関しての標準正規分布の2乗、つまりカイ2乗に従うということが示されました。

 ここでのポイントは、第2項$${\dfrac{T_2^2}{np_2}}$$が主役の第1項$${\dfrac{T_1^2}{np_1}}$$を補完して標準正規分布(の2乗)の形を完成させていることです。つまり、一般的に、$${\dfrac{A}{p}}$$に$${\dfrac{A}{1-p}}$$を加えると、通分の結果$${\dfrac{A}{p}+\dfrac{A}{1-p}=\dfrac{A}{p(1-p)}}$$となるので、結果的に$${(1-p)}$$で割る効果が得られるということです。

3変数の場合

$$
S = \dfrac{T_1^2}{np_1} + \dfrac{T_2^2}{np_2}+ \dfrac{T_3^2}{np_3}\\
但し、\\
X_1 +X_2 +X_3= n\\
p_1 +p_2 + p_3= 1\\
T_1 +T_2 +T_3=X_1 +X_2 +X_3-n(p_1 +p_2 + p_3)=n-n=0
$$

 この場合、先ほどの議論にあったように、$${S}$$の後ろ2項$${\dfrac{T_2^2}{np_2}+ \dfrac{T_3^2}{np_3}}$$の部分が初項$${\dfrac{T_1^2}{np_1} }$$を補完して$${S= \dfrac{T_1^2}{np_1(1-p_1)} }$$となるには、

$$
\dfrac{T_2^2}{np_2}+ \dfrac{T_3^2}{np_3}= \dfrac{T_1^2}{n(1-p_1)}
$$

であれば良い、更に、$${n}$$は共通しているので、

$$
(1-p_1)\left( \dfrac{T_2^2}{p_2}+ \dfrac{T_3^2}{p_3} \right)= T_1^2
$$

が示れば良いということになります。$${1-p_1=p_2+p_3}$$なので、左辺は、$${L=(p_2+p_3)\left( \dfrac{T_2^2}{p_2}+ \dfrac{T_3^2}{p_3} \right)}$$と書けます。以下、ゴリゴリに計算します。

$$
\begin{align*}
L=(p_2+p_3)\left( \dfrac{T_2^2}{p_2}+ \dfrac{T_3^2}{p_3} \right)
&=T_2^2+T_3^2 +\dfrac{p_3}{p_2} T_2^2 + \dfrac{p_2}{p_3} T_3^2\\
&=(T_2+T_3)^2-2T_2 T_3 + \left(\sqrt{\dfrac{p_3}{p_2}} T_2 - \sqrt{\dfrac{p_2}{p_3}} T_3 \right)^2 +2T_2 T_3\\
&=(T_2+T_3)^2+ \left(\sqrt{\dfrac{p_3}{p_2}} T_2 - \sqrt{\dfrac{p_2}{p_3}} T_3 \right)^2
\end{align*}
$$

 なぜか、クロスタームの$${2T_2 T_3}$$がうまく相殺してスッキリしました。ここで、$${T_1 +T_2 +T_3=0}$$なので、$${(T_2+T_3)^2=T_1^2}$$となります。余計な右の項がなければこれで終わりです。邪魔ですね。
 しかし、以下のようにすれば、無効化できそうです。

 この右の項を元の$${X}$$での記述に戻してあげましょう。

$$
\begin{align*}
\left(\sqrt{\dfrac{p_3}{p_2}} T_2 - \sqrt{\dfrac{p_2}{p_3}} T_3 \right)^2&=\left(\sqrt{\dfrac{p_3}{p_2}} (X_2-np_2) - \sqrt{\dfrac{p_2}{p_3}} (X_3-np_3) \right)^2\\
&=\left(\sqrt{\dfrac{p_3}{p_2}} X_2-n\sqrt{p_2 p_3} - \sqrt{\dfrac{p_2}{p_3}} X_3+n\sqrt{p_2 p_3} \right)^2\\
&=\left(\sqrt{\dfrac{p_3}{p_2}} X_2 - \sqrt{\dfrac{p_2}{p_3}} X_3 \right)^2
\end{align*}
$$

 この子はどうやっても消えません。しかし、試行回数を増やしたりして平準化すると、$${X_2 \to np_2}$$、$${X_3 \to np_3}$$、つまり期待値に近づくはずです(ここの厳密な記述法や議論は正直よくわかりません)。となると、

$$
\left(\sqrt{\dfrac{p_3}{p_2}} X_2 - \sqrt{\dfrac{p_2}{p_3}} X_3 \right)^2 \to \left(\sqrt{\dfrac{p_3}{p_2}} n p_2 - \sqrt{\dfrac{p_2}{p_3}} n p_3 \right)^2=0
$$

となり、めでたくこの子の悪さを抑え込むことができました。結果、

$$
L=(1-p_1)\left( \dfrac{T_2^2}{p_2}+ \dfrac{T_3^2}{p_3} \right)= T_1^2
$$

が示され、無事変数2の時と同じ結果が得られました。

4変数の場合

 詳細は省きますが、全く同じ方法で、同様に次の式が導かれます。

$$
L(後半3項に(p_2 +p_3+p_4)をかけたもの)\\
=T_1^2 + \dfrac{1}{\sqrt{p_2 p_3}}(p_2 X_3 - p_3 X_2)^2 + \dfrac{1}{\sqrt{p_3 p_4}}(p_3 X_4 - p_4 X_3)^2 +\dfrac{1}{\sqrt{p_4 p_2}}(p_4 X_2 - p_2 X_4)^2
$$

 期待値をとり、後ろ3つの項はゼロに飛ぶため、同様の結果となりました。

n変数の場合

 この雰囲気から考えると、一般的にこんなことが言えそうです。

$$
L=T_1^2 + \sum_{i \ne j} \dfrac{1}{\sqrt{p_i p_j}}(p_i X_j - p_j X_i)^2
$$

 $${X_1}$$を除くあらゆる異なる組み合わせで同様の式が成立し、やはり全てゼロに飛ぶ、ということになりそうです。

気になること

 ということで一応の説明はできたようですが、やはり、最後の期待値をとる、というところが引っ掛かります。
 なぜなら、式全体の期待値を取ると、$${X_1 -np_1}$$も同様にゼロとなり、結局全部ゼロの恒等式になるのではという不安です。
 恐らく、着目する変数$${X_1 }$$についてはその挙動に着目し、それ以外の変数は付随するものとして均されていく、という感じなのでしょうか。
 期待値を取るという考えは、リンクの論文にあったのを拝借したのですが、どうも確信が持てなくてスッキリしません。
 まあとにかく、本筋である線形代数に踏み込まず、式変形だけでなんとかしてみようという試みは一応これにて。


この記事が気に入ったらサポートをしてみませんか?