見出し画像

条件付き確率、独立、期待値:確率の学習は抽象度を増す

Cover Photo by Christopher Burns on Unsplash

数学A「場合の数と確率」

(2)場合の数と確率
 場合の数と確率について,数学的活動を通して,その有用性を認識するとともに,次の事項を身に付けることができるよう指導する。
 ア 知識及び技能
  (ア)集合の要素の個数に関する基本的な関係や和の法則,積の法則などの数え上げの原則について理解すること。
  (イ)具体的な事象を基に順列及び組合せの意味を理解し,順列の総数や組合せの総数を求めること。
  (ウ)確率の意味や基本的な法則についての理解を深め,それらを用いて事象の確率や期待値を求めること。
  (エ)独立な試行の意味を理解し,独立な試行の確率を求めること。
  (オ)条件付き確率の意味を理解し,簡単な場合について条件付き確率を求めること。
 イ 思考力,判断力,表現力等
  (ア)事象の構造などに着目し,場合の数を求める方法を多面的に考察すること。
  (イ)確率の性質や法則に着目し,確率を求める方法を多面的に考察すること。
  (ウ)確率の性質などに基づいて事象の起こりやすさを判断したり,期待値を意思決定に活用したりすること。
[用語・記号] nPr,nCr,階乗,n!,排反

「解説」より

一番下に記されている「用語・記号」を見てわかるように、nPrやnCr、あるいは階乗を用いた計算など、順列や組合せの計算を正しく行うことが、授業の中心になるのかもしれません。しかし、統計学を学ぶにあたって重要なのはそこではなく、タイトルに書いたように「条件付き確率、独立、期待値」の3つの概念について理解することであると思われます。

「独立」について

「独立」について、「解説」には次のような説明があります。

独立な試行は,二つの試行の結果がお互いに影響を及ぼし合わない試行でのことであり,独立な試行S,Tを行うとき,試行Sでは事象Aが起こり,試行Tでは事象Bが起こるという事象Cの確率は,P(C)=P(A) P(B)(確率の乗法定理)となる。

「解説」より

たとえば、コインを投げるという試行について、試行Sは1回目にコインを投げたとき、試行Tは2回目にコインを投げたとき、というように具体化してみましょう。使用したコインに偏りがないと仮定すると、1回目に表が出る(=事象A)の確率P(A)は0.5、2回目に裏が出る(=事象B)の確率P(B)は0.5で、1回目に表で2回目が裏になる確率(=事象C)の確率は、P(A)×P(B)=0.5×0.5=0.25となります。

これをもう少し一般化すると、「一方の事象が起こったことが分かっても、他方の事象の確率が変化しない」(Wikipediaより)という意味になります。上の例にあてはめると、1回目の試行(S)で表が出たとわかったからといって、2回目の試行(T)で裏が出る確率に影響があるわけではない、ということです。当然ですね。とはいえ私たちはつい、3回連続で表が出たりすると、次はなんとなく裏が出るように思ってしまうことがあります。そんなことはありません。「そろそろ裏が出てほしいよね」という期待をもつことは自由ですが、裏が出る確率が変化するわけではありません。

この「独立」の考え方は、2つの確率変数の関係についても使われます。ある教科書で使われている例に、出身地が関東か関西かで、好きな麺類(うどん or そば)が異なるのではないか、というものがあります。これを使うと、ある人物を一人選んだ時に、出身地が関東である確率P(A)と、好きな麺類がうどんである確率P(B)を考えた時、出身地が関東(関西)であったことがわかったとしても、好きな麺類がうどん(そば)である確率には影響しない、ということです。
「あの人は関西出身なんだそうだ、だったら、そばよりも、うどんが好きだろう」という期待をもつことは自由です。実際、関西出身の人が「うどん好き」である確率は、関東出身の人が「うどん好き」である確率よりも高いのかもしれません。だとしたら、出身地が関東である確率P(A)と、好きな麺類がうどんである確率P(B)は「独立ではない」わけです。

実際に2つの確率変数が独立かどうかは、クロス表の「独立性の検定」で確かめることができます。いずれこの記事でも取り上げることになると思いますが、「独立性の検定」の「独立」とは、確率における「独立」の考え方がもとになっています。

条件付き確率

独立の考え方を理解したうえで、条件付き確率を考えます。説明の中で、「P(C)=P(A) P(B)」という式が出てきました。ここでP(C)とは、事象Aと事象Bがともに起きるという意味でしたので、「P(A∩B)=P(A)P(B)」と書き換えることができます。
しかし、2つの事象AとBを選んだ時にそれらが独立である場合よりも独立でない場合のほうが多いでしょう。その場合、上の式は使えず、下のような式になります。

$$
P(A\cap B)=P(A) P_A(B)=P(B) P_B(A)  \cdots (a) \\
P(A \cap B)=P(A) P(B|A)=P(B) P(A|B)  \cdots (b)
$$

(a)は「解説」に示されている式ですが、一般には(少なくとも大学で使われるテキストには)(b)の形が使われています。
(a)での「下付きのA」、(b)での「縦棒の右のA」は、Aが「起こったという条件での」という意味を表しています。つまり、確率を計算するときに、「全ての根源事象」の数を分母とするのではなく、「Aの根源事象」の数を分母とするわけです。

数字を使って説明する方がわかりやすいと思うので、具体例を1つだけ。
ある会社の社員は、関東出身者は40%です。このうち、好きな麺類が「そば」と答えた人は75%でした。全社員が1200人のとき、「関東出身でそばが好き」である社員は何人でしょう。
関東出身の確率P(A)は0.4
そのうち、そばが好きな確率P(B)は0.75
よって、関東出身で、かつ、そばが好きな確率P(B|A)=P(A∩B)は、
0.4×0.75=0.3 1200×0.3=360 答え360人

上の問題は次のような表現もできます。
ある会社の社員に好きな麺類調査をしたところ、50%が「そば」と答えました。このうち、関東出身者は60%でした。全社員が1200人のとき、「そばが好きで関東出身」である社員は何人でしょう。
そばが好きな確率P(B)は0.5。
そのうち、関東出身の確率P(A)は0.6
よって、そばが好きで、かつ、関東出身者である確率P(A|B)=P(A∩B)は、
0.5×0.6=0.3 1200×0.3=360 答え360人

最初の書き方では、全社員から、まず関東出身者だけを取り出してきました。そして、その中で「そば好き」の人を選びました。
後の書き方では、全社員から、まず「そば好き」の人だけを取り出してきました。そして、その中で関東出身者を選びました。
結果的に同じ人たちが選ばれています。条件付き確率を考える時に、何を分母にするかは、2通り考えられるというわけです。ベン図などに表して、実際に数字を書き入れて理解することが重要でしょう。

参考までに、最初の例では出身地調査で「関東出身者は40%」、後の例では好きな麺類調査で「そば好きが50%」と書きました。この2つがもしも独立だとしたら、「関東出身で、かつ、そば好き」の社員は、0.4×0.5=0.2、1200×0.2=240という答えになります。

条件付き確率の式は、ベイズの定理を説明するときの基になる考え方です。そして、私はこの式が大の苦手です。

期待値

最後に期待値です。どういうわけか、「解説」には、期待値の求め方について何も説明がありません。たとえば離散分布の場合、期待値は、

$$ \sum_{i=1}^n x_ip_i$$

という式で表されます。サイコロを1回振ったときの目の数についてこれを求めると、

$$ 1\times \frac16 + 2\times \frac16 + 3\times \frac16 + 4\times \frac16 + 5\times \frac16 + 6\times \frac16 = \frac{21}{6} = 3.5 $$

となります。教科書でこういう式が出てくるのかどうかを、私は知りません(教科書を見ていないので)。

サイコロを1回振ったときの目の数の期待値は3.5となりますが、この3.5はとても抽象的な数です。サイコロには3.5という目はありません。サイコロを何回か振って目の数を記録し、平均を求めても3.5になるとは限りません。(当然ですが、確率的な事象に対して、数が対応していないと、期待値の計算はできません。)
このことは、地味に重要です。
標本調査をしたとき、標本平均は母平均の不偏推定量として使うことができます。が、これは標本平均の「期待値」が、母平均と一致するということであって、たまたまその時に得られた標本平均値(標本平均の実現値)が、母平均と同じ値だという意味ではありません。
ここまできて、勉強し始めた頃の私は、やっと「え?! どういうこと???」となりました。「期待値」をちゃんと理解していなかったのです。いずれ、もう少し別の面から書くことになると思います。