(1):平均と分散
平均と分散は手計算できるよね?
この科目の試験では、ほぼ同じ問題が毎回出されているので、「平均と分散くらいは、計算できるよね」というか、「それくらいは電卓でちゃんとやってよね」ということだろう。n=5なので、落ち着いて電卓で計算すれば楽勝なのである。
もしかして、平均の計算の仕方がわからない? 平均はOKだけど分散が不安? 2乗の計算がめんどくさい? そうですね、電卓使い慣れないと2乗して合計するって、それなりに面倒かもね。
標本分散だよ
地味に強調しておきたいのは、ここで問題にしているのは「標本分散」であって、「不偏分散」じゃない。問題のどこかに明記してあるわけじゃないけど、nで割る分散の方を考えるのであって、(n-1)で割る不偏分散の方を考えるわけじゃない。
なんでそう言い切れるんだ? と突っ込まれると答えにくいけど、単に平均と分散を答えさせる(選択肢を選ぶだけだけど)ときには、nで割る標本分散だと思って間違いない。ただしHADで「要約統計量」コマンドを使うと、デフォルトで不偏分散が出力されるので注意しよう。電卓より統計ソフトの方が簡単じゃん!と思っている人、気を付けて。
誤答選択肢はどう作るのか
問題を見ていると、誤答の選択肢をどう作っているのだろうと気になる。たとえば選択肢が4つあって、こんなふうになっているとしますよね。数値はでたらめだからね、当然だけど。
① 平均1、分散8
② 平均3、分散8
③ 平均3、分散15
④ 平均5、分散15
計算の結果、平均は3.2、分散は7.75であるとすると、正解の選択肢はこれに最も近い②である。ここまではよい。
気にしてしまうのはこの先で、平均が1になるのは、どんな計算間違いをしたときだろう? どういう間違いを想定して選択肢を作っているのだろう? という、問題作成者の「アタマの中」が気になってしまう。
自分が問題を作る側だったらどうするかなあ。
中央値をどこかの選択肢にいれようかなあ。合計をわざわざ(n-1)で割った値(そんなことする人がいるのか?)を使おうかなあ。あるいは、最頻値が1つに決まるようなデータなら最頻値を入れておくのもいいなあ。
分散の方はもう少し簡単で、nで割った分散(つまり標本分散)と、(n-1)で割った分散(つまり不偏分散)を使えばいい。ただしこのとき、どっちの分散を答えればいいのかわかるように問題を書かないといけないので、問題文がちょっと難しくなるだろう。
ということを考えながら、残りの選択肢を見ていくと、どうも、この問題に関しては、私が考えたような面倒なことは考えていないように見える。いや、私がそう見えるだけで、実は、講師の先生が経験した興味深い誤答が反映されているのかもしれない。いつの時代にも、初学者の誤答は味わい深いものがあるからだ(自分もかつてそうだったように)。
ずるい回答選択法
ところで、さきほどの仮想選択肢を例に考えると、選択肢を見ただけで、明らかに誤答だろうと予想できるものが2つある。①と④だ。どうして?
もし平均を計算して1になったのら、選択肢①が正解と決定。改めて分散を計算する必要がない。同じように、もし平均を計算して5になったのなら、選択肢④が正解だ。やはり、あらためて分散を計算する必要がない。しかし、出題者としては、ちゃんと分散がおおよそいくつになるのかを計算して確かめてほしいはずだ。分散を計算しなくても正解できてしまうような選択肢を作ってしまったら、出題者の「負け」だろう。よって、①や④はあり得ない。②か③が正解だ。
だったら分散だけでよくね?
だったら、平均値をたずねなくても、分散だけ計算させればいいんじゃね? と思われる向きもあるだろう。一理ある。
なぜ?
だって、分散を計算するためには、まず平均値を求める必要があるから。
とはいっても、統計ソフトで(Rとかね)、$${ var( x ) }$$ とか叩けば(xはデータ、事前に入れておいてね。あと、多くの場合不偏分散が出力されるので、$${ *(n-1)/n }$$ とか自分で補正してね。)、分散はわかってしまう。やっぱり両方聞くのがいいかもね。