見出し画像

χ^2分布の話

0.この記事の概要

この記事ではχ^2分布を導入するところから簡単な活用までを解説する。
想定読者は統計検定2級を受けようと思っている人2級を受けた直後でこれから準1級を目指そうという人である。

1.χ^2分布とは何か知っているか

先日統計検定2級が行われたが、その頻出キーワードの1つである「χ^2分布」とはどのような分布であるか答えられる方はどれだけいるだろうか。2級合格者の中にも「χ^2検定で使うやつ」くらいにしか思っていない方がいるのではないだろうか?
χ^2分布の定義は以下のとおりである。
Z1,Z2,Z3...Znをそれぞれ独立に標準正規分布に従う変数とする。このとき
Z=Z1^2+Z2^2+Z3^2+...+Zn^2
が従う分布を、自由度nのχ^2分布と呼ぶ。

問1
(1) 自由度1のχ^2分布の期待値を求めよ。
(2) 自由度nのχ^2分布の期待値を求めよ。
(3・難) 自由度1のχ^2分布の分散を求めよ。
(4・難) 自由度nのχ^2分布の分散を求めよ。

(当然ながらχ^2分布の確率密度関数も存在するが、式が長くなるのでここでは紹介しない。Wikipediaに載っているし…)

2.2乗の和といえば偏差平方和だ

さっそくχ^2分布の活用を考えよう。そのために、まずは以下の問題を解いてほしい。

問2
(1) ND(0,1)に従う母集団から、サイズnのサンプルを抽出する。このとき、サンプルにおいて、(x-0)^2の総和はどのような分布に従うだろうか。
(2) ND(μ,σ^2)に従う母集団から、サイズnのサンプルを抽出する。このとき、サンプルにおいて、(x-μ)^2の総和にどのような処理をすればχ^2分布に従うようになるだろうか。また、その時のχ^2分布の自由度を求めよ。
(3・難) (1)で計算した総和は、いわゆる偏差平方和ではない。なぜならば、「偏差」というのは確率変数−標本平均だからである。ならば、(x−(xの標本平均))^2の総和はどのような分布に従うだろうか?
(※この問題の証明は非常に難しく、結果のみを覚えておいても構わない。答は「自由度n-1のχ^2分布」だ。)
(4) ND(μ,σ^2)に従う母集団から、サイズnのサンプルを抽出する。このとき、サンプルの偏差平方和にどのような処理をすればχ^2分布に従うようになるだろうか。また、その時のχ^2分布の自由度を求めよ。

問2の結果を使えば、母分散の区間推定ができることに気づいただろうか。
さっそく区間推定をしてみよう。

問3
正規分布に従っていることはわかっているが、期待値と母分散が未知の分布ND(μ,σ^2)に従う母集団から、サイズ20のサンプルを抽出した。このとき、サンプルの偏差平方和は180であった。問2(4)をうまくつかって、母分散の95%信頼区間を求めよ。

3.適合度検定

「偏差、すなわち期待値からの差」に似た概念として、期待度数からのズレを考えてみよう。

問4
日本人の血液型の割合はA:O:B:ABが4:3:2:1であると言われている。
今、ある大学からサイズ100の標本を抽出して血液型を調べたところ、それぞれの人数は38人,25人,22人,15人であった。(この度数を、実際に観測された度数という意味で観測度数という)
この大学における血液型の母比率は4:3:2:1であるといえるだろうか?有意水準5%で検定せよ。
(1)帰無仮説と対立仮説を考えよ。
(2)帰無仮説が真である場合、100人からなるサンプルのそれぞれの血液型の学生の人数の期待値は何人であるか。(この度数の期待値のことを期待度数という)
(3)期待度数と観測度数とがあまりに離れていると、母比率は4:3:2:1であるとはいえないだろう。期待度数と観測度数の乖離度合いを以下の式で表すとする。
 ∑ (観測度数ー期待度数)^2/期待度数
全属性
この値をχ^2検定統計量という。今回の標本におけるχ^2検定統計量を求めよ。
(4)χ^2検定統計量は、帰無仮説が真である場合自由度3(属性数−1)のχ^2分布に近似的に従う(証明は難しいので省略するが、自明ではない!しかもサンプルサイズが大きい場合の近似であることも忘れてはならない!!)。p値を求めよ。
(5)帰無仮説を棄却するか否かを判断せよ。

4.独立性検定

仮定の置き方によって期待度数の求め方も異なる。
しかし、χ^2検定統計量がχ^2分布に従うことを用いてp値を求める点は変わらない。

問5
男性と女性にそれぞれ3種類のお菓子A,B,Cを試食してもらい、一番好きなお菓子に投票してもらった。
投票結果は以下のようになった。
   A  B  C  合計
男性 10   20   60     90   
女性    20   30   60     110
合計 30 50 120   200

性別(属性A)と、お菓子の好み(属性B)は独立であるだろうか?独立とは言えないだろうか?
(1)帰無仮説と対立仮説を考えよ。
(2)帰無仮説が真である場合、各セル(男A、女Cなど)の期待度数を求めよ。(ヒント:積の法則)
(3)χ^2検定統計量は以下のように求められる。
 ∑ (観測度数ー期待度数)^2/期待度数
全セル
今回の標本におけるχ^2検定統計量を求めよ。
(4)χ^2検定統計量は、帰無仮説が真である場合自由度2((属性Aの種類数−1)(属性Bの種類数−1))のχ^2分布に近似的に従う。p値を求めよ。
(5)帰無仮説を棄却するか否かを判断せよ。

おまけ.「χ^2検定」をするとき、検定統計量はなぜχ^2分布に従うか考えよう

(詳しい証明は「現代数理統計学の基礎」の156ページを参照せよ)
証明のアウトラインを書いておくと、
1.帰無仮説が正しい場合、(X1,X2,X3,X4)は(p1,p2,p3,p4,N)=(0.4,0.3,0.2,0.1,100)の多項分布に従う。
2.Nが大きくなると2項分布を正規分布で近似できるように、多項分布もNが大きくなると(多変量)正規分布で近似することができる。すなわち
(X1,X2,X3,X4)~ND((p1N,p2N,p3N,p4N),∑)
と近似できる。
3.変数変換をすると、独立な3つの変数にできる。(x1,x2,x3,x4は総和が決まっているので従属であるので、一旦変数を取り直すのだ)
4.z得点化するとそれぞれの変数が独立に標準正規分布に従い、3つの変数の平方和はχ^2分布(df=3)に従う。
5.「3つの変数の平方和」を計算・変形すると、本文で書いたχ^2検定統計量となる。したがってχ^2検定統計量~χ^2分布(df=3)が示せる。

謝辞

このnoteはピースオブケイク様での統計勉強会のために作成した資料です。勉強会での講師の機会をくださった参加者のみなさまに感謝申し上げます。

この記事が気に入ったらサポートをしてみませんか?