条件付き確率からベイズ推定へ
最近のネット社会ではベイズ推定という統計手法を取り入れています。それがどういうものかというと、最初は大雑把に判断して、情報を集めながらどんどん計算し直して、少しずつ精度を高めていくというものです。本質的には高校数学で習う「条件付き確率」そのものです。迷惑メールの振り分け、ユーザーの利用履歴に応じて表示する広告を変える仕組みなどでも使われています。
転校生は 女の子? 男の子?
では、さっそく《解説・解答》といきましょう。
①には性別に関する情報は何も含まれていませんから、①から「下の子が女の子である確率」を判断しようとすると、1/2 と判断せざるを得ないでしょう。そこに、
◇ うちには女の子がいます。 ・・・②
という情報が加わると、その確率はどのように変わるでしょうか。その女の子が、上の子なのか、下の子なのかは分かりません。ですから、「下の子が、女の子なのか、男の子なのか」について、確実なことは分かりません。でも、「下の子が、女の子である確率」は①の 1/2 から動いています(よね?)。さて、その値をどうやって算出したらいいでしょうか。
なにはともあれ、書き出してみましょう。すべてのパターンは(上の子 , 下の子)=(女 , 女),(女 , 男),(男 , 女),(男 , 男)の4パターンで、何も条件がなければそれぞれの確率は 1/4 です。
⑴では4パターンすべての可能性が残って、そのうち「下の子が女の子」なのは2パターンですから、「下の子が女の子である確率」は 2/4 、つまり 1/2 です。
⑵では(男 , 男)の可能性が消えて(女 , 女),(女 , 男),(男 , 女)の3パターンが残ります。そのうち「下の子が女の子」なのは2パターンですから、求める確率は 2/3 です。
(3)では(女,女),(女,男)の可能性が残って、そのうち「下の子が女の子」なのは1パターンですから、求める確率は「1/2」です。
(4)は「男の子がいる」ということですから、(女,男),(男,女),(男,男)のうちの(男,女)だけが該当します。よって求める確率は「1/3」です。
(5)では(上の子,下の子)=(女,男)に決まります。よって求める確率は「0」です。
この流れがベイズ推定です。ベイズちゃんの見込みは新しい情報によってどんどん変わります。
ドーピング疑惑
「検査の精度が 99% なら、実際にドーピングしている確率はかなり高いだろう」と思うのではないでしょうか。
でも、ちょっとこんな例を考えてみてください。ウチの学校には中高合わせて1900人の生徒がいますが、彼ら全員がこの検査を受けたら、どういう結果になるでしょうか。
検査の精度が 99% なら、たぶん19人くらいに陽反応が出るでしょう。検査が間違える確率が 1% ですから、1900人×1%=19人 に陽性反応が出て普通なのです。ちなみに、ウチの学校の生徒たちはドーピングしていないはずです。動機がありません。ついでながら、ウチの学校でなくても、町のおじちゃん・おばちゃんを対象に検査しても、同じような結果になるでしょう。
さて、陽性反応が出た人は本当に疑わしいのでしょうか?
計算してみましょう。便宜上、競技者の人数を10000人とします。このうちドーピングしているのは 1% の100人…①で、ドーピングしていないのは9900人…②です。検査で誤った判定が出る確率は 1% ですから、①のうち 1%(=1人)には陰性反応が出て、②のうち 1%(=99人)には陽性反応が出ます。以上から、競技者10000人を「ドーピングしているか、否か」と「陽性反応か、陰性反応か」で4つに分類すると、次表のようになります。
表から、この検査で陽性反応が出るのは全部で198人で、そのうち実際にドーピングしているのは99人、実はドーピングしていない人も99人だということが分かります。ということは、「陽性反応が出た人が実際にドーピングしている確率」は 50% です。意外と小さいと思いませんか。
興味のある方、練習したい方、おヒマな方は、
◇ 「全体の10%の選手がドーピングしている」と仮定する
◇ 「全体の0.1%の選手がドーピングしている」と仮定する
と条件を置き換えて、「陽性反応が出た人が実際にドーピングしている確率」を求めてみてください。条件付き確率は大きく変わりますよ。
ところで、先ほどは「全体の 1 % の選手がドーピングしている」ものと仮定して計算しましたが、実際には「全体の何%がドーピングしているか」は分からないのです。ドーピングしている選手もしていない選手も、みんな「私はやってない」というに決まってますから。「検査の精度が 99%」というのも、実際には検証できないでしょう。陰性とされた選手が「検査結果、間違ってます」と自己申告するとは思えませんから。
そう、「実際には分からないことだらけ」なんです。だからこそ統計の出番なんですが、統計を使っても「絶対に正しいこと」なんて何も言えません。
では統計は使い物にならないのかというと、そうでもないのです。次の【問題】を見てください。
ザツから始めて、マシにする
ちょっと難しかったかもしれませんが、答えを見れば「なるほど」と思っていただけるんじゃないでしょうか。問題文を読むことで情報技術の一端を感じてい ただけたら幸いです。
《解答例》は次のとおりです。
そう、「ザツから始めてマシにする」のが統計のココロです。
3枚のカード問題
条件付き確率の問題をもう1つ。
《解説・解答》はこちら(→ https://note.com/omori55/n/n7da53985b963#4iEE1 )をどうぞ。
◇ ◇ ◇
〜 使える確率の学び方 〜
▷ 条件付き確率からベイズ推定へ
▷ 期待値から機械学習へ
▷ Excel に人工知能を実装せよ
この記事が気に入ったらサポートをしてみませんか?