見出し画像

条件付き確率からベイズ推定へ

 最近のネット社会ではベイズ推定という統計手法を取り入れています。それがどういうものかというと、最初は大雑把に判断して、情報を集めながらどんどん計算し直して、少しずつ精度を高めていくというものです。本質的には高校数学で習う「条件付き確率」そのものです。迷惑メールの振り分け、ユーザーの利用履歴に応じて表示する広告を変える仕組みなどでも使われています。

転校生は 女の子? 男の子?

 女の子と男の子が生まれる確率をそれぞれ 1/2 とします。小学生のベイズちゃんの家の隣に家族が引っ越してくることになりました。その家のお母さんがベイズちゃんの家に挨拶に来て、言いました。
  ◇ うちには子供が2人いて、
    上の子が中学生で、下の子が小学生です。・・・①
 ベイズちゃんは、下の子が女の子なのか、男の子なのか、とても気になりました。確率の計算が得意なベイズちゃんは、隣の家のお母さんの次の言葉を待っています。新しい情報によって、隣の家の「下の子が女の子なのか、男の子なのか」についてのベイズちゃんの見込み(条件付き確率)が変わるからです。
 さて、もし隣の家のお母さんから次の3つの情報のいずれかが得られたとすると、ベイズちゃんの見込みはどのように変わるでしょうか。
  ◇ うちには女の子がいます。  ・・・②
  ◇ 上の子は女の子です。    ・・・③
  ◇ うちの息子はイケメンです。 ・・・④
 では、ここで【問題】です。次のそれぞれの場合の「下の子が女の子である確率」を求めてください。
  ⑴ ベイズちゃんが①の情報を得た時点
  ⑵ ①に加えて②の情報を得たとき
  ⑶ ①に加えて③の情報を得たとき
  ⑷ ①に加えて④の情報を得たとき
  ⑸ ①、②、③、④のすべての情報を得たとき

 では、さっそく《解説・解答》といきましょう。
 ①には性別に関する情報は何も含まれていませんから、①から「下の子が女の子である確率」を判断しようとすると、1/2 と判断せざるを得ないでしょう。そこに、
   ◇ うちには女の子がいます。  ・・・②
という情報が加わると、その確率はどのように変わるでしょうか。その女の子が、上の子なのか、下の子なのかは分かりません。ですから、「下の子が、女の子なのか、男の子なのか」について、確実なことは分かりません。でも、「下の子が、女の子である確率」は①の 1/2 から動いています(よね?)。さて、その値をどうやって算出したらいいでしょうか。
 なにはともあれ、書き出してみましょう。すべてのパターンは(上の子 , 下の子)=(女 , 女),(女 , 男),(男 , 女),(男 , 男)の4パターンで、何も条件がなければそれぞれの確率は 1/4 です。
 ⑴では4パターンすべての可能性が残って、そのうち「下の子が女の子」なのは2パターンですから、「下の子が女の子である確率」は 2/4 、つまり 1/2 です。
 ⑵では(男 , 男)の可能性が消えて(女 , 女),(女 , 男),(男 , 女)の3パターンが残ります。そのうち「下の子が女の子」なのは2パターンですから、求める確率は 2/3 です。
 (3)では(女,女),(女,男)の可能性が残って、そのうち「下の子が女の子」なのは1パターンですから、求める確率は「1/2」です。
 (4)は「男の子がいる」ということですから、(女,男),(男,女),(男,男)のうちの(男,女)だけが該当します。よって求める確率は「1/3」です。
 (5)では(上の子,下の子)=(女,男)に決まります。よって求める確率は「0」です。
 この流れがベイズ推定です。ベイズちゃんの見込みは新しい情報によってどんどん変わります。

画像1

ドーピング疑惑

 ドーピング検査の精度を 99% とします。すなわち、ドーピングしていないのに陽性反応が出る確率が 1% で、ドーピングしているのに陰性となる確率も 1%で す。さて、ある人がドーピング検査を受けたところ、陽性反応が出ました。この人がドーピングしている確率はどれくらいでしょうか。ただし、100人のうち実際にドーピングしているのは1人だとします。

 「検査の精度が 99% なら、実際にドーピングしている確率はかなり高いだろう」と思うのではないでしょうか。
 でも、ちょっとこんな例を考えてみてください。ウチの学校には中高合わせて1900人の生徒がいますが、彼ら全員がこの検査を受けたら、どういう結果になるでしょうか。
 検査の精度が 99% なら、たぶん19人くらいに陽反応が出るでしょう。検査が間違える確率が 1% ですから、1900人×1%=19人 に陽性反応が出て普通なのです。ちなみに、ウチの学校の生徒たちはドーピングしていないはずです。動機がありません。ついでながら、ウチの学校でなくても、町のおじちゃん・おばちゃんを対象に検査しても、同じような結果になるでしょう。
 さて、陽性反応が出た人は本当に疑わしいのでしょうか?
 計算してみましょう。便宜上、競技者の人数を10000人とします。このうちドーピングしているのは 1% の100人…①で、ドーピングしていないのは9900人…②です。検査で誤った判定が出る確率は 1% ですから、①のうち 1%(=1人)には陰性反応が出て、②のうち 1%(=99人)には陽性反応が出ます。以上から、競技者10000人を「ドーピングしているか、否か」と「陽性反応か、陰性反応か」で4つに分類すると、次表のようになります。

画像2

 表から、この検査で陽性反応が出るのは全部で198人で、そのうち実際にドーピングしているのは99人、実はドーピングしていない人も99人だということが分かります。ということは、「陽性反応が出た人が実際にドーピングしている確率」は 50% です。意外と小さいと思いませんか。

 興味のある方、練習したい方、おヒマな方は、
   ◇ 「全体の10%の選手がドーピングしている」と仮定する
   ◇ 「全体の0.1%の選手がドーピングしている」と仮定する
と条件を置き換えて、「陽性反応が出た人が実際にドーピングしている確率」を求めてみてください。条件付き確率は大きく変わりますよ。
 ところで、先ほどは「全体の 1 % の選手がドーピングしている」ものと仮定して計算しましたが、実際には「全体の何%がドーピングしているか」は分からないのです。ドーピングしている選手もしていない選手も、みんな「私はやってない」というに決まってますから。「検査の精度が 99%」というのも、実際には検証できないでしょう。陰性とされた選手が「検査結果、間違ってます」と自己申告するとは思えませんから。
 そう、「実際には分からないことだらけ」なんです。だからこそ統計の出番なんですが、統計を使っても「絶対に正しいこと」なんて何も言えません。
 では統計は使い物にならないのかというと、そうでもないのです。次の【問題】を見てください。

ザツから始めて、マシにする

 文化祭のシーズン、会場では警備体制を敷く。 最近ではそういう学校が多い。ガードマンを配置したり、教員が巡回したりして、怪しい人物がやってきたらマークするなり、お引き取り願うなりして混乱を防止する。
 さて、そういうときの判断基準は、見た目。「人を見た目で判断するな」というが、不特定多数の中からターゲットを絞るには他にどんな基準があるだろう。もちろん、見た目で悪人と決め付けているわけではない。いわば、見当をつけているのだ。そして往々にして外れる。
 ところで、似たような判断の仕方はIT機器でもネット技術でもいろんなところで使われている (2) 。例えば、手書き文字判読システム。読みにくい文字でもとりあえずいずれかの文字と判断して、ユーザーが修正すればユーザーのクセを学習して、少しずつ精度を上げる。そして使えば使うほどヒット率が向上する。これは情報技術の1 つであるが、ベースには「ベイズ推定」という定式化された理論がある。それは、ぶっちゃけ言えば、高校数学で習う「条件付き確率」に他ならない。
 「人を見た目で判断」するのも結局はそれと同じことをしているのである。まず、 見た目で「 怪しい 」と思う。言葉は悪いが、仮に「悪人率50%」と判断したとしておこう。そこで声をかける。そして相手の顔を見る。穏やかな表情ならその率を下げ、慌てた様子ならその率を上げる。次に相手が声を出す。「なんですか?」ときたら率を下げ、「なんだてめぇ」ときたら率を上げる。・・・
 人の感覚による判断とコンピュータによるデータの蓄積という違いはあるが、「はじめに( A )、続いて( B )、しかし( C )」という流れは全く同じなのだ。
 「見た目で判断」であれ「ベイズ推定」であれ、それから得られるものは「正しいもの」ではなくて、「マシなもの」である。それで十分役に立つ。

(1) ( A ),( B ),( C )に入れるのに適当な文を、各 1 行で書きなさい 。
(2) 太線部 (2) の例を「手書き文字判読システム」以外に1つ挙げなさい。

 ちょっと難しかったかもしれませんが、答えを見れば「なるほど」と思っていただけるんじゃないでしょうか。問題文を読むことで情報技術の一端を感じてい ただけたら幸いです。
 《解答例》は次のとおりです。

(1) A(はじめに)雑な基準でとりあえず判別する
  B (続いて)データを集めながら精度を上げる
  C (しかし)正しいものにはなるわけではない
(2) 漢字変換の候補Google 検索のヒット率アップ
   / 迷惑メール自動判別Amazonのお薦め本 など
   ※ 指紋認証などはダメ。自動学習されたら、すぐに破られる。

 そう、「ザツから始めてマシにする」のが統計のココロです。

3枚のカード問題

 条件付き確率の問題をもう1つ。

  両面が白のカードが1枚、両面が黒のカードが1枚、片面が白で片面が黒のカードが1枚、全部で3枚のカードがあります。
 袋の中から1枚を選んでテーブルの上に置いたら、上面は白でした。そのカードをめくったとき、下面が白である確率はいくつですか?

《解説・解答》はこちら(→ https://note.com/omori55/n/n7da53985b963#4iEE1 )をどうぞ。

◇      ◇      ◇

使える確率の学び方
▷ 条件付き確率からベイズ推定へ
▷ 期待値から機械学習へ    
▷ Excel に人工知能を実装せよ  

この記事が気に入ったらサポートをしてみませんか?