分散分析、冥王星の長い一日

画像1 太陽系の惑星に冥王星を加えた9天体を3群に分け、その自転周期、いわば一日の長さ(http://www.ncsm.city.nagoya.jp/study/astro/data/solar_system_data.html)に群ごとの傾向があるのか、一元配置分散分析で調べる。帰無仮説「どの群でも平均は似たようなもんだよ」を棄却し、対立仮説「群による傾向はある。違った群が一つはあるよ」を支持できるか?表の数値は計算の途中で適宜、丸めている。
画像2 1枚目の画像から、分散分析表の完成に必要な「平方和」を求める。 群間平方和SSA(青)は「群の平均」が「全体の平均」から偏っているかを示す。 群内平方和SSE(緑)は「群内の各値」が「群の平均」から偏っているかを示す。 群間平方和SSA(青)が大きいと、群に何らかの特徴があると言えて、目標の対立仮説に近づく。 群内平方和SSE(緑)が大きいと「別に群内でも色々だよ、その群の特徴ってことはないのでは」と言えて、帰無仮説に近づいてしまう。
画像3 SSA(青)がSSE(緑)に対して大きいことを言いたい。 しかし、そのままでは比べられない。 群間平方和SSA(青)は元々3つの項を足したもので(3群あるから)、2で割った値「平均平方」を用いる。 群内平方和SSE(緑)は元々9つの項を足したもので(9天体あるから)、では8で割るかと思いきや、6で割る。例えば総数が同じで群が多ければ小さい値で割ることになり群内平方和は大きめになる。小さな群に分かれているときには群ごとの特徴が埋もれてしまうということか?
画像4 ちなみにSSはSSAとSSEの和として求めたが、実は全体平均と各値の差をいちいち二乗して足したものである。それをΦで割ったMSとは不偏分散に他ならない。証明をうまく追えなかったが、たしかに計算してみると合った(太字部分)。