見出し画像

カイ二乗検定とは何か?

今回は、カイ2乗検定とは何か?について、ざっくりとまとめます。

カイ2乗検定とは、ある事象(変数)Aと別の事象(変数)Bの関連を確かめるものです。

例えば、「女性(変数A)は、ピンク色が好き(変数B)」という考えが正しいのかどうかを知る場合、どうするでしょう?

男性と女性の一定数の人に「ピンク色が好きかどうか」を訊ねますよね。男性500人、女性500人の回答を得たとして集計すると以下のような表にまとめられます。


こういった表のことをクロス表といいます。

これがどのくらいの差なのか、というところが気になるところですので、まず最初にするのはパーセント表示することです。

そうすると、女性の50%がピンク好きなのに対して、男性はたったの20%しかピンク好きではないということがわかります。

でも、これだけだと性別がどのくらいの意味のある差(有意差)なのかを判別したことにはなりません。

カイ2乗検定は、こういったリサーチによって得られたクロス表のデータが統計上有意差のあるものかを判別するためのものなのです。

カイ2乗検定を行う際に、まず、帰無仮説について理解する必要があります。

帰無仮説とは、「2変数は独立である」とするもので、要する「ピンク好きかどうかは性別に関係ない」とするということです。

カイ二乗値を出すことによって、実際の数値(観測度数)が帰無仮説(期待度数)からどれほどかけ離れているのかを検討することができます。

R行、C行のクロス表について、i行j列のセル荷ついて、観測された度数をOij、独立の状態のクロス表の期待セル度数をEijとすると、以下の数式になります。

カイ二乗値を導き出し、いよいよ有意差検定に入るのですが、カイ二乗分布からの乖離によって判断します。

カイ二乗分布は先ほどほ帰無仮説の下でカイ二乗値が従う分布のことです。

カイ2乗分布は、自由度によって形が異なります。自由度は、クロス表の独立性検定において、クロス表のサイズによって決まり、m行n列であれば、自由度は(m-1)*(n-1)によって決まります。

自由度1の分布はこんな感じです。


ちなみに、この検定は正規分布のような両側ではなく片側の棄却域について検定するので片側検定と言われています。

まとめ

いかがでしょうか?カイ二乗検定とは何か?わかりましたでしょうか?

実際は数式の例があった方がわかりやすいのですが、それだと統計学の解説書と変わらないのでできる限り言葉だけでまとめようと試みました。

もうちょっと進めながらもっと上手く伝える方法がないか考えます。

最後までお読みいただき有難うございます。

この記事が気に入ったらサポートをしてみませんか?