条件付き確率、独立、期待値:確率の学習は抽象度を増す
Cover Photo by Christopher Burns on Unsplash
数学A「場合の数と確率」
一番下に記されている「用語・記号」を見てわかるように、nPrやnCr、あるいは階乗を用いた計算など、順列や組合せの計算を正しく行うことが、授業の中心になるのかもしれません。しかし、統計学を学ぶにあたって重要なのはそこではなく、タイトルに書いたように「条件付き確率、独立、期待値」の3つの概念について理解することであると思われます。
「独立」について
「独立」について、「解説」には次のような説明があります。
たとえば、コインを投げるという試行について、試行Sは1回目にコインを投げたとき、試行Tは2回目にコインを投げたとき、というように具体化してみましょう。使用したコインに偏りがないと仮定すると、1回目に表が出る(=事象A)の確率P(A)は0.5、2回目に裏が出る(=事象B)の確率P(B)は0.5で、1回目に表で2回目が裏になる確率(=事象C)の確率は、P(A)×P(B)=0.5×0.5=0.25となります。
これをもう少し一般化すると、「一方の事象が起こったことが分かっても、他方の事象の確率が変化しない」(Wikipediaより)という意味になります。上の例にあてはめると、1回目の試行(S)で表が出たとわかったからといって、2回目の試行(T)で裏が出る確率に影響があるわけではない、ということです。当然ですね。とはいえ私たちはつい、3回連続で表が出たりすると、次はなんとなく裏が出るように思ってしまうことがあります。そんなことはありません。「そろそろ裏が出てほしいよね」という期待をもつことは自由ですが、裏が出る確率が変化するわけではありません。
この「独立」の考え方は、2つの確率変数の関係についても使われます。ある教科書で使われている例に、出身地が関東か関西かで、好きな麺類(うどん or そば)が異なるのではないか、というものがあります。これを使うと、ある人物を一人選んだ時に、出身地が関東である確率P(A)と、好きな麺類がうどんである確率P(B)を考えた時、出身地が関東(関西)であったことがわかったとしても、好きな麺類がうどん(そば)である確率には影響しない、ということです。
「あの人は関西出身なんだそうだ、だったら、そばよりも、うどんが好きだろう」という期待をもつことは自由です。実際、関西出身の人が「うどん好き」である確率は、関東出身の人が「うどん好き」である確率よりも高いのかもしれません。だとしたら、出身地が関東である確率P(A)と、好きな麺類がうどんである確率P(B)は「独立ではない」わけです。
実際に2つの確率変数が独立かどうかは、クロス表の「独立性の検定」で確かめることができます。いずれこの記事でも取り上げることになると思いますが、「独立性の検定」の「独立」とは、確率における「独立」の考え方がもとになっています。
条件付き確率
独立の考え方を理解したうえで、条件付き確率を考えます。説明の中で、「P(C)=P(A) P(B)」という式が出てきました。ここでP(C)とは、事象Aと事象Bがともに起きるという意味でしたので、「P(A∩B)=P(A)P(B)」と書き換えることができます。
しかし、2つの事象AとBを選んだ時にそれらが独立である場合よりも独立でない場合のほうが多いでしょう。その場合、上の式は使えず、下のような式になります。
$$
P(A\cap B)=P(A) P_A(B)=P(B) P_B(A) \cdots (a) \\
P(A \cap B)=P(A) P(B|A)=P(B) P(A|B) \cdots (b)
$$
(a)は「解説」に示されている式ですが、一般には(少なくとも大学で使われるテキストには)(b)の形が使われています。
(a)での「下付きのA」、(b)での「縦棒の右のA」は、Aが「起こったという条件での」という意味を表しています。つまり、確率を計算するときに、「全ての根源事象」の数を分母とするのではなく、「Aの根源事象」の数を分母とするわけです。
数字を使って説明する方がわかりやすいと思うので、具体例を1つだけ。
ある会社の社員は、関東出身者は40%です。このうち、好きな麺類が「そば」と答えた人は75%でした。全社員が1200人のとき、「関東出身でそばが好き」である社員は何人でしょう。
関東出身の確率P(A)は0.4
そのうち、そばが好きな確率P(B)は0.75
よって、関東出身で、かつ、そばが好きな確率P(B|A)=P(A∩B)は、
0.4×0.75=0.3 1200×0.3=360 答え360人
上の問題は次のような表現もできます。
ある会社の社員に好きな麺類調査をしたところ、50%が「そば」と答えました。このうち、関東出身者は60%でした。全社員が1200人のとき、「そばが好きで関東出身」である社員は何人でしょう。
そばが好きな確率P(B)は0.5。
そのうち、関東出身の確率P(A)は0.6
よって、そばが好きで、かつ、関東出身者である確率P(A|B)=P(A∩B)は、
0.5×0.6=0.3 1200×0.3=360 答え360人
最初の書き方では、全社員から、まず関東出身者だけを取り出してきました。そして、その中で「そば好き」の人を選びました。
後の書き方では、全社員から、まず「そば好き」の人だけを取り出してきました。そして、その中で関東出身者を選びました。
結果的に同じ人たちが選ばれています。条件付き確率を考える時に、何を分母にするかは、2通り考えられるというわけです。ベン図などに表して、実際に数字を書き入れて理解することが重要でしょう。
参考までに、最初の例では出身地調査で「関東出身者は40%」、後の例では好きな麺類調査で「そば好きが50%」と書きました。この2つがもしも独立だとしたら、「関東出身で、かつ、そば好き」の社員は、0.4×0.5=0.2、1200×0.2=240という答えになります。
条件付き確率の式は、ベイズの定理を説明するときの基になる考え方です。そして、私はこの式が大の苦手です。
期待値
最後に期待値です。どういうわけか、「解説」には、期待値の求め方について何も説明がありません。たとえば離散分布の場合、期待値は、
$$ \sum_{i=1}^n x_ip_i$$
という式で表されます。サイコロを1回振ったときの目の数についてこれを求めると、
$$ 1\times \frac16 + 2\times \frac16 + 3\times \frac16 + 4\times \frac16 + 5\times \frac16 + 6\times \frac16 = \frac{21}{6} = 3.5 $$
となります。教科書でこういう式が出てくるのかどうかを、私は知りません(教科書を見ていないので)。
サイコロを1回振ったときの目の数の期待値は3.5となりますが、この3.5はとても抽象的な数です。サイコロには3.5という目はありません。サイコロを何回か振って目の数を記録し、平均を求めても3.5になるとは限りません。(当然ですが、確率的な事象に対して、数が対応していないと、期待値の計算はできません。)
このことは、地味に重要です。
標本調査をしたとき、標本平均は母平均の不偏推定量として使うことができます。が、これは標本平均の「期待値」が、母平均と一致するということであって、たまたまその時に得られた標本平均値(標本平均の実現値)が、母平均と同じ値だという意味ではありません。
ここまできて、勉強し始めた頃の私は、やっと「え?! どういうこと???」となりました。「期待値」をちゃんと理解していなかったのです。いずれ、もう少し別の面から書くことになると思います。