(4)：「帰無仮説」の世界へようこそ

2023年10月5日 16:20

「帰無仮説」の世界への招待状

2023年度の1学期の問題で出題されているのは、①カイ二乗分布の限界値を答える問題と、②検定統計量と限界値を比較して検定の解釈をする問題です。この科目でよくみられるのですが、①について2種類、②について2種類の選択肢が作られていて、それを組み合わせて4つの選択肢が作られています。言葉で書くとややこしいけど、実際に選択肢見てみれば明解でしょ？

①クロス表の自由度

一つ目は、カイ二乗分布における限界値を答える問題です。この教科書には、附録として分布表が掲載されていますから、カイ二乗分布表を開いて、そこから正しく数値を探してくればよいのです。
注意することは、自由度と有意水準を間違えないことですね。分布表を調べると、間違っている方の数値は、自由度を誤っています。つまり、
正しい自由度＝（行数-1）×（列数-1）
誤った自由度＝（行数）×（列数）
になっています。「－1を忘れないでね～！！！」という、講師からの熱いメッセージを感じますね。あ、「有意水準」何％で検定したいのかということも、問題からちゃんと読み取りましょう。よく使われるのは5％ですが、試験問題が必ず「有意水準5％」である保証はないですからね。

②検定結果の解釈

二つ目は、検定結果の解釈を答える問題です。データから計算された検定統計量は問題文に示されていますから、それを一つ目で答えた限界値と比較すればよいのです。
限界値の方が大きいなら帰無仮説保留（母集団で差があると言えない）だし、兄弟統計量の方が大きいなら帰無仮説棄却（母集団に差がありそう）ですね。
「ああ、そうだった。でも忘れちゃうんだよね。どっちがどっちだっけ？　棄却っていうことは、母集団で差が？　ないの？　え！　あるの？　限界値の方が大きいなら、棄却だったっけ？　え！　逆なの？」という方のみ、続きのお話をどうぞ。

検定は「帰無仮説の世界」でやるのです

そもそも、どうして検定統計量が計算できるのでしょう。カイ二乗値の計算式をちょっと見てみましょう。

各セルの「観測度数－期待度数」を計算して２乗する。
それを、そのセルの期待度数で割る。
それらを合計する。

「期待度数」については、前回の記事でいろいろ書きました。「数値が偏っているなあ…。偶然じゃなくて、意味のある偏りであってほしいなあ…」などという、研究者のあま～い「期待」とは裏腹に、「ぜっんぜん、まーーったく、１ミリも、数値が偏っていない状態」（一言で「関連がない」と言えばよい）を表しているのが期待度数でした。
要するに「期待度数」が並んだクロス表というのは、帰無仮説の世界を具体的に表したものなのです。ここ、大事です。
そうです。検定というのは、帰無仮説の世界でやっているんです。

そんなのいやだ、対立仮説の世界でやりたーい！　というわがままに、今はお付き合いできません。ごめんなさい。

計算過程の１では、観測度数が、帰無仮説の世界からどれくらい離れているかを計算し（引き算の部分）、それを2乗します。2乗の計算が入るのは、変数の分散を計算するときに2乗するのと同じような理屈です。今はこれに深入りしません。
ただし、「期待度数＝100、観測度数＝95」と、「期待度数＝10、観測度数＝５」は、どちらも、「観測度数－期待値」の2乗が25で同じですが同じ意味だとはいえませんよね。前者は期待度数の5％しか離れていないのに、後者は50％も離れています。計算過程の２（期待度数で割る部分）は、これを調整するためにあります。
それらを合計すると、カイ二乗値という検定統計量が算出されます。

計算過程を振り返ると、どういうときにカイ二乗値が大きくなるかわかりますね。期待度数と観測度数の差が大きい時です。

すごく大きなカイ二乗値が計算されたら、帰無仮説の世界ではどう見えるでしょう。
そうです！　目立ちますね。

小学校や中学校で、いませんでしたか？　ときどき、すごーく背の高い子が一人か二人。全校集会なんかで並んでいると、一番後ろに一人だけ背の高い子がいる。目立ちますね。
目立つことを気にしないで生活してきた子もいるでしょうが、その子がたまたま、目立ちたくない、ひっそり生きていたい子だったりすると、少々気の毒です。好きで身長を伸ばしたわけではないでしょうから。
でも、そういう子に限って、からかわれたりしてしまうんです。「あの子、デカいねえ！　本当に○年生なの？」

さて、帰無仮説の世界に戻ってきましょう。大きすぎる検定統計量は目立つのです。帰無仮説の世界には、遠慮も気遣いもありませんから（？）、「お前、目立つ。本当に帰無仮説の世界の住人か？」と追及されてしまうのですね。そんなこと言われても、観測されたクロス表の度数たちは何も返事ができませんから、お白洲の前で「p値」のお告げを待つのです（どんな世界観！？）。

ここは自由度■の帰無仮説の白洲である。有意水準5％の限界値は●●と定められておる。おぬし、やけに目立っておる。そなたのクロス表から算出された検定統計量を申してみよ。

パターン１：
なに！　検定統計量が▲▲だと！　それではp値が0.4になってしまうではないか！　確認するが、有意水準は5％で間違いないのだな。わかった。そなた、帰無仮説棄却を申し渡す。ひとまず対立仮説の世界に行くがよい。ききゃくーー！

パターン２：
なに！　検定統計量が▽▽だと！　確認するが、有意水準は5％で間違いないのだな。わかった。そなた、やけに目立つ気もするが、p値は確かに0.5より大きい。帰無仮説の世界にしばしとどまって良い。　ほりゅうーー！

以上です。ずいぶんふざけてしまいました。こういうのがお好きな方は、「いいね」を押して行ってください。
整理しましょう。

期待度数と比べて偏りが大きい。＝検定統計量が大きくなりやすい。
検定統計量（カイ二乗値）が大きい。＝帰無仮説の世界で目立つ。
検定統計量が限界値より大きい。＝目立ちすぎるので棄却。対立仮説の世界へGO！（きっと母集団でも差があるよ～）
検定統計量が限界値以下。＝目立ちはするが棄却しない。帰無仮説の世界にしばしとどまって良い（保留）。（差があるって言いきれないんだなあ～）