見出し画像

ベイズ


記事を分割しました。


ベイズの定理

一番簡単な形は

$$
P(A|B)=\frac{P(A,B)}{P(B)}=\frac{P(B|A)P(A)}{P(B)}
$$

ここで$${P(A,B)=P(B|A)P(A)}$$は乗法定理。
あるいはまったく意味は同じだが個人的なコピペのために(あるいは事象と確率変数を区別して)表記だけ変えて

$$
P(Y|X)=\frac{P(X,Y)}{P(X)}\\
=\frac{P(X|Y)P(Y)}{P(X)}\\
=\frac{P(X|Y)P(Y)}{\sum\limits_Y P(X|Y)P(Y)}
$$

ここで$${P(X)=\sum\limits_Y P(X|Y)P(Y)}$$は周辺確率。

おおざっぱな意味

ある結果をもとにして、その原因がなんとかである確率。

結果として事象Bが起こった時、その原因が事象$${A_k}$$である確率。
工場がn個あって、どの工場も事象Bとして不良品をだす。では不良品をだした工場が$${A_k}$$である可能性はなんぼか。

ただし$${A1,A2...An}$$は互いに排反。
$${Ω=A1UA2U...UAn}$$

また、式はいくらか異なる形をとる。

$$
P(A|B) = \frac{P(B|A)P(A)}{\sum_A P(A)P(B|A)} \\
= \frac{P(B|A)P(A)}{P(B)} \\
= \frac{P(B,A)}{P(B)}
$$

ここでP(A),P(B)、とりわけP(B)は周辺確率として展開される。

式である以上、項のどれかは既知であり、いずれかは未知である。
得られるものは具体的な値である場合もあれば、与えられた関数の変形である場合もある。
既知であるものには、既に自明であるものもあれば、式を扱う人間がこれだと決め打ちする場合もある。また、扱う式は決まっても、その式が完成しておらず、式の係数を求めることが目的となることもある。このような問題はパラメータ推定と呼ばれる。その手段には最尤推定やベイズ推定がある。

往々にして求めたいのはP(A|B)であり、これは事後確率と呼ばれる。
往々にして既知であるのはP(A)であり、これは事前確率である。
なので基本は、P(A)を変形してP(A|B)に至ることである。

我々は事後確率P(A|B)を最大にするような$${A=\lbrace A_1,…,An\rbrace }$$、の要素$${A_k}$$を知りたい場合がある。
この場合

$$
A_k=argmax\lbrace P(A|B) \rbrace
$$

であって、この時の事後確率はAの要素を入力に取る$${P(A|B)=P(A_i)}$$である。このような処理の工程を事後確率最大化といい、
この手法に基づく要素の判定、あるいは複数要素からの選択をベイズ決定則という。

結果、P(B|A)とP(B)の在り様が問われる。

P(B|A)は既に与えられている場合もあれば、未知である場合もある。
未知である場合、我々はここになにがしかの関数を勝手に当てはめる。
その場合前述のパラメータ推定が問題となる。

P(B)は既に与えられたり、周辺確率として容易に計算可能な場合もある。
しかしここに積分や組み合わせが入り込むと、大量の計算が必要になったりそもそも計算できなかったりする。
この場合MCMCなどの近似計算を用いる必要がある。

P(A)が不明な場合もある。この場合、P(A)を一様分布とみなすなどして対応する。その場合のパラメータ推定は特にベイズ推定と呼ばれる。


ベイズの定理自体は変数を入れ替えても機能するため、
$${P(B|A)=\frac{P(A|B)P(B)}{P(A)}}$$も成り立つ。
ただ、わざわざベイズの定理を持ち出す時は結果から原因を探る時。

具体的な例(ベルヌーイ分布の相乗)

問題
袋からコインを引いて、引いたコインを連続でトスのする場合、トスの結果をみて、引いたコインの種類を当てれるか。

B=コインの表裏の結果を並べたもの
トスの回数をnとするなら$${B=\lbrace x_1,x_2,…,_xn \rbrace}$$
ここで$${x_i\in\lbrace 表,裏\rbrace }$$
試行の回数が1回だけなら$${B=\lbrace 表,裏\rbrace}$$でよい
A=コインの種類
コインの種類がm種類あるなら$${A=\lbrace w_1,w_2,…,w_m\rbrace}$$
あるいはそのまま$${A_k}$$

P(A)はある種類のコインを引く確率。
袋の中のコインが、種類によって枚数が異なる場合に機能する。
枚数がすべて等しいか、1枚ずつしか入ってないならP(A)=1/mである。
また、コインが1種類しか入ってないならm=1であり、P(A)=1である。表裏Bの結果がなんであれ、その結果をもたらす原因コインの種類はただの1つである。
この時P(B|A)はP(B)と同一であり、P(A|B)=1。事後確率は常に最大。
また、コインが袋に入っていないなら、m=0であり、P(A)=0である。表裏Bの結果は存在しないともとれるし、あるいはまったく関連の無いコインをトスした適当な結果である。その結果の原因が対応するコインに帰することはない。

P(B)は引いたコインをトスして表である確率、ないし裏である確率。種類を問うものではない。種類を問わず、表裏のみに着目した確率。
最も単純に考えるなら、P(B)=1/2である。その場合、下記のP(B|A)も考慮する必要がない。
P(B)が単純な1/2とは限らない場合に適用できるから、ベイズの定理を使う必要性が出てくる。P(B)が単純な1/2とは限らない、とは。コインの種類によってトスの表裏に影響が出る場合、すなわち重りが付いているとか出来損ないだとか、イカサマコインとかを相手にする場合である。

P(B|A)はある種類のコインが表であるか裏であるかの確率。
あるいはその表裏の結果を並べたものが出る確率。
コインの種類は結果を左右する原因であり、コインの表裏が観測結果である。
また、前述の通りP(B|A)はコインの種類によって表裏の確率に偏りが出るというモデルである。そうでなければ全て1/2とみなせる。
同じ種類だが偏りのあるコインを見るならば、それらのコインは全て1枚ずつ袋に格納されなければならない。あるいは、表裏の確率が同じものを同種とみなすこともできる。この辺は日本語とモデル化の問題。

トス1回で表裏を見るなら
P(B|A)=P(表|A)
P(B|A)=P(裏|A)
となって、
まとめるならベルヌーイ分布

$$
P(B|A)=\theta^r(1-\theta)^{1-r}
$$

ただし$${\theta}$$はある種のコインが表である確率。
$${r}$$はある現象が{起こる,起こらない}、今の場合は表裏を意味する$${\lbrace 0,1 \rbrace}$$に紐づく。
$${\theta}$$を表の確率としたなら$${r=1}$$が表を示す。
ただし$${r}$$は正確には、ある現象が$${r}$$回起こった時の回数を示す。
今、$${r}$$は$${\lbrace 0,1 \rbrace}$$の二値をとり、
$${r=0}$$の時、ある現象(コイン表)が0回起こる確率。つまりコイン裏。
$${r=1}$$の時、ある現象(コイン表)が1回起こる確率を示す。

ここで試行をn回、コインが表の回数をrとするなら
P(B|A)は二項分布

$$
{}_nC_r\theta^r(1-\theta)^{n-r}
$$

ただしこれは、n回トスのうち、r回表になる確率を示すが、
表裏の並び順は問うていない。
(010と100と001を問うていない)

並び順まで問う場合、係数$${{}_nC_r}$$がおちて

$$
\theta^r(1-\theta)^{n-r}
$$

となる。
これはベルヌーイ分布のn回試行の相乗であり、ベルヌーイ分布の尤度関数である。逆に言えばベルヌーイ分布でもなければ二項分布でもない。引いたコインの引き直しなしでのn回トス、かつ表裏の順番保持という前提がある。

例えば$${\theta=0.6}$$とした場合
試行の結果が$${\lbrace 0,0,1\rbrace}$$ならば、パラメータ$${\theta}$$の元で$${0.4*0.4*0.6=0.096}$$である。
二項分布の場合、これに係数$${{}_3C_1=3}$$を乗じるから$${0.096*3=0.288}$$。

ベルヌーイ分布の相乗、尤度関数は

$$
\prod\limits_{i=1}^Np(r_i|\theta)=\prod\limits_{i=1}^N \theta^{r_i}(1-\theta)^{1-r_i}
$$

であって

$$
\theta^{0}(1-\theta)^{1-0}*\theta^{0}(1-\theta)^{1-0}*\theta^{1}(1-\theta)^{1-1}\\
=(1-\theta)(1-\theta)\theta\\
=0.4*0.4*0.6
$$

ベイズの文脈の場合、尤度関数はP(結果|原因)、あるいはP(コインの表裏|コイン種)の条件確率とみるが、
統計の文脈の場合、あるパラメータの元と尤度関数の出力値xの同時確率$${L(x,\theta)}$$と見る。
また、$${P(\bf x^{(n}|\theta)}$$のようにして、パラメータの元での観測結果の並びという条件確率とみることもある。

さて
n回試行コイントスの場合

P(A)は数えればわかる
P(B|A)はうまいこと当てはまる関数がある
P(B)は周辺確率であって、同時確率の片っぽ固定したやつの総和である。
今の場合、表裏のBを固定してコイン種ごとに同時確率の総和をとる。

$$
P(B)=\sum\limits_A P(B,A)=\sum\limits_A P(B|A)P(A)
$$

ベイズの定理に放り込むと

$$
P(A|B)=\frac{P(B|A)}{P(B)}P(A)\\
=\frac{\pi_i \theta_i^r(1-\theta_i)^{n-r}}{\sum_{j=1}^m\pi_j\theta_j^r(1-\theta_j)^{n-r}}
$$

ここで$${\pi}$$は事前分布P(A)、すなわちあるコイン種を引く確率。

これにより、コイントスのベイズの定理は手で計算できることが分かる。
(いくらかの前提と、観測結果があれば、その観測結果を引き起こしたコインが特定の種類である確率が分かる)
問題になるのは、P(B|A)として当てはめる関数は決まってるが、パラメータAが分かんない場合→最尤推定
P(B)に積分でてきて計算できない、組み合わせに時間かかる→MCMC

みたいな感じになる。

事前確率・事後確率

出力が連続の時、特に事前分布、事後分布ともいう。
事後確率は条件付き確率の一種。
以下のようなベイズの定理の文脈で事前確率と対比して用いられる。

右辺は結局Bの確率なので分母P(B)によって0-1に正規化される。
確率の文脈において正規化は確率を0-1の範囲に収めること。

P(B)よりもP(B|A)の方が確率が小さくなることをイメージしなければならない。条件なしでBとなる確率より条件を付けた上でBとなる確率の方が小さい。
その上で確率の定義により、P(A)なるは0-1に収まる実数であるから、P(B)より小さき実数がさらに0-1掛けられて小さくなる。それが右辺分子部分、乗法定理によればP(A)とP(B)の積集合の確率、共通部分の確率である。
で、共通部分であるからにはAにもBにも存在する部分であるから、それをP(A)なりP(B)で除するということは0-1に収まるということである。

結果として式はP(A)がP(A|B)に変化する様子を表す。

ベイズ決定則とMAP(事後確率最大化)

事後確率最大化(MAP:maximum a posteriori)

ここで前項の$${A_k}$$が事後確率P(A|B)を最大化するならば、その事後確率P(A|B)は$${A_k}$$の識別関数として機能する。
最大の事後確率を求めるような処理を事後確率最大化といい、
それに基づく判定方法をベイズ決定則という。

ベイズ学習則

ベイズの定理を組み替えて漸化式みたいのつくるもの。
これが適用可能であるなら、観測データが増えるごとに事後確率を修正できる。

$$
P(w_i|\mathbf x^{(n)})=\frac{P(x_n|w_i)}{\sum_{j=1}^mP(w_j|\mathbf x^{(n-1)}P(x_n|w_j)}\cdot P(w_i|\mathbf x^{(n-1)})
$$

ベン図で見るベイズの定理

同時確率P(A,B)あるいはP(B,A)は
ベン図だと

ベイズの定理から

$$
P(A|B)=\frac{P(B|A)P(A)}{P(B)}=\frac{P(B,A)}{P(B)}\\
P(B|A)=\frac{P(A|B)P(B)}{P(A)}=\frac{P(A,B)}{P(A)}
$$

であるから、同時確率P(A,B)あるいはP(B,A)は

$$
P(A,B)=P(B|A)P(A)=P(A|B)P(B)=P(B,A)
$$

条件確率P(B|A)あるいはP(A|B)は
ベン図だと

意味はベイズの定理の通り、
P(A)あるいはP(B)を分母として
同時確率P(A,B)あるいはP(B,A)を分子とする。
この比は0-1に収まる。

また0-1であるP(A)あるいはP(B)で
条件確率との積をとる、あるいは
同時確率を除するわけだから、
基本的には同時確率<=条件確率
また、ベン図的に土台の面積を見ても同時確率の方が分母が大きいため、値としては小さくなる。

最尤推定

P(B|A)として使用する関数が分かっており、
Aがそのパラメータ、かつ未知である時、
P(B|A)を、Aを入力とする尤度関数とみなす。
その時、尤度関数を最大化するパラメータが最も尤もらしいパラメータである。最大化する際には尤度関数の対数をとり、微分してイコールゼロとなる式を立てる。

パラメータとは、例えばガウシアンなら平均$${\mu}$$と$${\sigma^2}$$である。適当な一次式$${f(\mathbf x)=\mathbf w\cdot \mathbf x}$$なら係数全部である。

パターン認識の場合

ある入力データ$${\bm x}$$(画像なり音声なり文章なり)があった時、そのデータがN個あるクラス$${w_i \quad (i=1…N)}$$の一つに分類される確率は

$$
P(w_i|\bm x)=\frac{p(\bm x | w_i)}{p(\bm x)}P(w_i)
$$

などと表現される。
ここで適切な尤度関数

$$
p(\bm x | w_i)
$$

を立てることができて、その関数値を最大化することができれば与えられた画像データを適切なクラスに分類することができるという話になる。

パラメトリックモデルの場合

観測されたデータ$${\mathbf x}$$があり、
そのデータがある種の確率分布や確率密度に従うと仮定する場合、
確率分布や確率密度のパラメータを$${\theta}$$とすると

観測データ$${\mathbf x}$$はパラメータ$${\theta}$$のもとで

$$
P(\mathbf x | \theta)
$$

と表現される。
ここでパラメータとは、関数を特徴づける係数である。

例えば
ガウス分布のパラメータは平均$${\mu}$$と分散$${\sigma^2}$$である。

補間、線形代数、機械学習の分野においては
以下のような一次式

$$
w_0x_0+w_1x_1+…w_nx_n=0
$$

における$${w}$$であろう。

この式においては
P(B|A)が空間全体にまたがる確率モデルであり、$${P(\mathbf x | \theta)}$$である。
Aがパラメータ$${\theta}$$
Bが観測データ$${\mathbf x}$$である。
モデルに関してパラメータAまたは$${\theta}$$の関数とみなすなら、それは尤度である。

事後確率はデータが観測されるにつれ変化する。

ここでモデルと事前確率の積は観測データ$${\mathbf x}$$とパラメータ$${\theta}$$の同時確率である(乗法定理)

$$
P(B|A)P(A)=P(B,A)\\
P(\mathbf x|\theta)P(\theta)=P(\mathbf x,\theta)
$$

ここで$${P(A|B)P(B)=P(B|A)P(A)}$$であるから$${P(\theta|\mathbf x)P(\mathbf x)=P(\mathbf x|\theta)P(\theta)}$$

ベイズに戻ると

$$
P(\theta|\mathbf x)=\frac{P(\mathbf x|\theta)P(\theta)}{P(\mathbf x)}
$$

ここで$${P(\mathbf x)}$$は周辺尤度とよばれる。
周辺尤度は周辺確率的に求める。
すなわち観測データとパラメータの同時確率の内、
片方を固定し(この場合観測データ)
片方を走査して(この場合パラメータ)
総和したものが周辺尤度である。

$$
P(\mathbf x)=\int_\theta P(\mathbf x, \theta)d\theta = \int_\theta P(\mathbf x| \theta)P(\theta)d\theta
$$


結局なにができて、なにがしたいのか

往々にして
我々の手元には観測したデータがある。
モデルは我々の側で勝手に決める。
今回はガウシアンを当てはめてみようとか、もっと一般的な一次方程式を当てはめてみようとか。
モデルの適切なパラメータは往々にして不明。特に式が一般的であるほど、人の手で係数を設定するのは困難極まる。
もしもモデルの適切なパラメータさえ定めることができたなら、
今後はデータを観測しなくとも予測ができる。判別、分類、決定ができる。生成ができる。

これらの問題は補間、回帰、最小二乗法でも扱うことができる場合がある。

事後確率を最大化したり
尤度関数を最大化してみたりして、
適切なパラメータが判明する場合がある。

まだ途中……

この記事が気に入ったらサポートをしてみませんか?