やっぱりAIだよね 9

前回の条件付き確率からベイズの定理をおさえていきます!

◆ベイズの定理

定理ってつくとなんか勉強してる感あっていい(余談)
さて前々回に同時確率、前回は条件確率を学びましたが、同時確率を使って条件確率を表すことも出来ます。

掛け算の形で表すことが出来るため、これを確率の「乗法定理」といいます。
乗法定理のAとBを入れ替えると次の2つの式が導かれます。

左辺が一緒なので右辺も等しくなりますね。これを整理すると次の式が得られます。

これを「ベイズの定理」といいます。
ベイズの定理のP(A)の部分を事前確率、P(A|B)を事後確率、P(B|A)を尤度と言います。

前回やったような迷惑メールの事象A、事象Bを使うと、この確率はP(A|B)を求めることを意味します。
ベイズの定理を使うと次のようになります。
※迷惑メールを判定したい。受信トレイには
・日本語のメール100通 (通常メール90通 迷惑メール10通)
・ロシア語のメール50通 (通常メール30通 迷惑メール20通)
があるとし、
事象A:1通のメールを選んだ時、それが迷惑メールだった
事象B:迷惑メールを読んで、それがロシア語だった

前回やった条件付き確率では、迷惑メールがロシア語の確率を求めましたが、今回ベイズの定理を使うことで選んだメールがロシア語だった場合の迷惑メールの確率を求めることが出来ました。このように逆の確率を簡単に求められることから「逆確率の法則」とも呼ばれます。
ここで大事なのが事前確率と事後確率の変化です。

事前確率よりも事後確率の方が高い確率になっていますね。
これは、ロシア語のメールを引いたことで迷惑メールである確率が高くなったことを表しています。
これはメール自体の数が増えていけば確率も変化し精度が高くすることが出来ます。これを「ベイズ更新」と言います。

実際の迷惑メールを自動判定する手法は更に複雑は条件があるようですが、この式を当てはめるだけでも参考程度にはなりそうです。
少々ややこしいですが重要な考え方なのでしっかり押さえておきましょう!

この記事が気に入ったらサポートをしてみませんか?