見出し画像

ベイズ推定: 統計学者ベイジー、工場で活躍

イントロ

ボブはある工場の管理者。彼の悩みの種は製造ラインで発生する不良品である。これまでの経験から、「不良品は1週間に1回くらい作られるだろう」とのんびり考えていた。ところが、ある日、上司から「データをとって正確に把握してほしい」と言われてしまった!そこでボブは、5週間にわたって不良品の発生回数を記録することにした。結果は1週目2回、2週目3回、3週目4回、4週目3回、5週目2回。

「あれ、結構多いな…」

$$
\begin{array}{cc}
1週目&2回\\
2週目&3回\\
3週目&4回\\
4週目&3回\\
5週目&2回
\end{array}
$$

途方に暮れたボブは、友人のベイジーに助けを求めた。ベイジーは統計学の専門家で、陽気な人物。「任せて、ボブ。ベイズ推定で全部解決しちゃうから!」と意気揚々と引き受けました。

データを取る前、不良品数はいくつだと思ってた?

プロジェクトへの参加が決まった直後、ベイジーはボブにこう尋ねた。
「まず、あなたは何を知りたいの?」
「不良品が1週間に平均して何個作られるかを推定したいんだ。」
するとベイジーは再び質問をした。
「データを取る前、あなたは故障回数は一週間に平均していくつだと信じていたの?」
ボブは即座に次のように答えた。
「これまで、不良品が3個以上作られることは滅多になかった。だから、故障は一週間に平均して1回か2回発生するだろうと思っていたよ。どちらかというと1回の方が2回よりあり得そうだけどね。」
それを聞いたアリスは、パソコンで何かを操作した後、画面をボブに見せた。

ベイジーがボブに見せた図その1。

「あなたの不良品に対する信念を数値化してみたよ。横軸の$${\lambda}$$は平均不良品数、縦軸の$${\mathrm{cr}(\lambda)}$$はあなたが$${\lambda}$$という値をどれだけ信じているかを表してる。平均不良品数が1になるという考えを一番信じていたんだよね?だから$${\mathrm{cr}(1)}$$を一番大きくしておいた。$${\lambda}$$が0から始まって$${1}$$になるまでは信念は上がり続けて、$${1}$$を超えた後は下がり続けてる。あと、平均不良品数が0となることはあり得ない。どう?」
「大体あってるけど、こんな数字で考えてたわけじゃないし、大丈夫かな?」
不安そうなボブにベイジーは
「いいのいいの、大体正しければ」
と答えた。ボブはベイジーの言葉をとりあえず信じることにした。
「あと、信念ってなんか大袈裟だね」
ボブがベイジーにそう言うと、ベイジーは
「確かにそうね。でもベイズ統計学ではこう呼ぶの。」
と答えた。
「一応、このグラフを書くために用いた数式を教えておくね。後で使うんだよね。」
そう言うとベイジーは黒板に数式を書き始めた。

$$
\mathrm{cr}(\lambda) =\displaystyle\frac{1}{4!}(5\lambda)^{4}\exp(-4\lambda)
$$

ボブは思わず呟いた。
「こんなに面倒臭い式だったんだ…」

データを取った後、信念はどう変わった?

「で、データを得た後は$${\lambda}$$についてはどう思っているの?」
「それが分からなくて君に協力を頼んだんだよ。得られたデータから、僕はどう考えるべきかが分からないんだ。経験からすると平均不良品数は1くらいなんだけど、データはそれより多いことを示唆している。どう考えればいいんだろう?」
「それなら、私に頼んで正解だったね。これから、それを計算していこう!」
「本当に?それができたら万々歳だよ!」
「任せといて。ちょっと整理しておくと、私たちが知りたいのは、データを得た後のあなたの信念だよね。それを$${\mathrm{Cr}(\lambda|x_{1},x_{2},x_{3},x_{4},x_{5})}$$と書くよ。$${x_i}$$はあなたが取得したデータのこと。」
「わかった。」

不良品数はいくらだと思う?

ベイジーは次の質問を投げかけた。
「じゃあ、推測を先に進めるために、この質問に答えて。仮に平均不良品個数が1個だという確証が得られたとしよう。このとき、あなたは実際にいくつの不良品が一週間で作られてしまうと思う?」
「うーん。平均が1個だってわかっても、実際いくつ作られるかはわからないなあ。でも平均が1だから、0と2の間に収まるんじゃないかな。それより大きいのはあまり起こらないと思う。」
「そうだよね。今あなたはとても大事なことを言ったから、繰り返しておくね。たとえ平均がわかったとしても、実際にいくつの不良品が作られるかはわからない。これって最初の平均不良品数がわからないっていう状況に似てるの。」
「ありうる選択肢はわかるけど、そのどれかが正しいのかは分からないってこと?」
「そういうこと。統計学の用語を使うと、たとえ確率分布のパラメータがわかったとしても、実際にどの値が得られるかは分からないのよ。当たり前だけどね。」
ベイジーは続ける。
「でも選択肢に対してどの程度信じてるかは大体わかってる。今あなたが言ったように、不良品の数は一週間で0から2個の間を取ることが多くて、それ以上はあまり起こらない。この信念をまたグラフで描いてみましょ。」
またベイジーはパソコンで画像を出力した。ボブはそれを覗き込む。

ベイジーがボブに見せた図その2

「これは$${\lambda=1,2,3,4,5}$$について、平均不良品数が$${\lambda}$$であるという確証を得た後の、不良品が実際に$${x}$$だけ生じるという信念を表してる。$${\lambda}$$の値について確証を得ているから、$${\mathrm{cr}(x|\lambda)}$$という記号を使ってる。」
「なるほど、$${\lambda}$$の値によって信念の形が変わるわけだね。確信した$${\lambda}$$の値が大きいほど信念も右にずれていっているからよさそうだ。」
「そう。しかもこの信念は一つの式で表せるの。こんな感じ」
ベイジーは黒板に数式を書いた。

$$
\mathrm{Cr}(x|\lambda) =\displaystyle \frac{\lambda^{x}}{x!}\exp(-\lambda)
$$

「それは便利だね。でも、実際には僕は5週間にわたるデータを持っているんだ。この数式は一つのデータしか考えていない。」
「そうね。これから5個のデータに対する信念$${\mathrm{Cr}(x_{1},x_{2},x_{3},x_{4},x_{5}|\lambda)}$$を考えましょう。そのために、次の等式を用いるよ。」

$$
\mathrm{Cr}(x_{1},x_{2},x_{3},x_{4},x_{5}|\lambda) = \mathrm{Cr}(x_{1}|\lambda)\mathrm{Cr}(x_{2}|\lambda)\mathrm{Cr}(x_{3}|\lambda)\mathrm{Cr}(x_{4}|\lambda)\mathrm{Cr}(x_{5}|\lambda)
$$

「左辺は、一週間で生じる平均不良品数が$${\lambda}$$だと確信したときの、1, 2, 3, 4, 5週目の不良品数がそれぞれ$${x_1, x_2, x_3, x_4, x_5}$$である信念を表してる。それが、$${i}$$週目の不良品数が$${x_{i}}$$であるという信念の積になる、ということをこの式は主張しているよ。」
「どういう時にこの式が成り立つのさ?」
「$${x_1,x_2,x_3,x_4,x_5}$$がお互いに影響しないとき、つまり、ある週で生じる不良品の数が他の週で生じる不良品の数とは何の関係もないときだよ。」
ベイジーがそう言うと、ボブは少し考えてこう言った。
「この仮定って妥当なのかな?たとえば$${x_1=5}$$のとき、つまり不良品が多く作られてしまったとしよう。このとき製造者は不良品の対応に追われて、製造ラインのメンテナンスが十分にできない。となると、$${x_2}$$も大きくなってしまうんじゃないかな。つまり$${x_1}$$が大きいほど、$${x_2}$$も大きくなりそう。」
「確かに、その可能性は十分にあり得るね。その場合の信念はこうなるよ。」

$$
\mathrm{Cr}(x_1, x_2, x_3, x_4, x_5|\lambda) = \mathrm{Cr}(x_1|\lambda)\mathrm{Cr}(x_2|x_1,\lambda)\mathrm{Cr}(x_3|x_1,x_2,\lambda)\mathrm{Cr}(x_4|x_1, x_2, x_3,\lambda)\mathrm{Cr}(x_5|x_1, x_2, x_3, x_4, \lambda)
$$

「この式は全体のデータ$${(x_1, x_2, x_3, x_4, x_5)}$$が得られる信念を、$${x_1}$$から順番に考えているよ。まず、平均不良品数$${\lambda}$$について確証を得たとして、$${x_1}$$をデータとして得る信念を計算する。次に、$${x_1}$$と$${\lambda}$$について確証を得たとして、$${x_2}$$をデータとして得る信念を計算する。これを$${x_5}$$まで続けるの。」
ベイジーは続ける。
「この式を見ると、週ごとの不良品数が独立であるときの式の意味が分かりやすくなる。独立であるという仮定は次のことを意味してる。」

$$
\begin{align*}
\mathrm{Cr}(x_2|x_1,\lambda) &=& \mathrm{Cr}(x_2|\lambda),\\\
\mathrm{Cr}(x_3|x_1,x_2,\lambda) &=& \mathrm{Cr}(x_3|\lambda),\\\
\mathrm{Cr}(x_4|x_1,x_2,x_3,\lambda) &=& \mathrm{Cr}(x_4|\lambda),\\\
\mathrm{Cr}(x_5|x_1,x_2,x_3,x_4,\lambda) &=&\mathrm{Cr}(x_5|\lambda)
\end{align*}
$$

「例えば、3行目の式は、1, 2, 3週目の不良品数が、4週目の不良品数が$${x_4}$$であるという信念に何も影響しないってことを意味してる。言い換えれば、あなたが4週目の不良品数がいくらだろうって考えるときに、それまでの週の不良品数のことを考慮に入れても入れなくても信念は変わらないっていう仮定。」
「大胆な仮定だな。大丈夫か心配になってきた。」
「確かにそうね。でもこういう独立性の仮定は一番簡単な近似として有効であることが多いの。気持ち悪いけど、とりあえず認めましょ。とすると5週間の全てのデータに対してこの式が成り立つ。」

$$
\mathrm{Cr}(x_i|\lambda) = \displaystyle\frac{\lambda^{x_i}}{x_i!}e^{-\lambda},\quad i= 1, 2, 3, 4, 5
$$

「独立だとすると、全データに対する信念はこう書けるよ。」

$$
\begin{array}{rl}
\mathrm{Cr}(x_{1},x_{2},x_{3},x_{4},x_{5}|\lambda) &=&\displaystyle\prod_{i=1}^{5}\frac{\lambda^{x_i}}{x_i!}e^{-\lambda}\\\
&=&\displaystyle\frac{1}{\prod_{i=1}^{5} x_{i}!}\lambda^{\sum_{i=1}^{5}x_{i}}\exp(-5\lambda)
\end{array}
$$

ベイズの定理、登場!

「さあ、これで準備万端!」
ベイジーは張り切って言った。
「後はベイズの定理を使うだけなの。ベイズの定理っていうのはこれね。」

$$
\mathrm{cr}(\lambda|x_{1},x_{2},x_{3},x_{4},x_{5}) = \frac{\displaystyle\mathrm{Cr}(x_{1},x_{2}, x_{3},x_{4},x_{5}|\lambda)}{\displaystyle\int_{0}^{\infty}d\lambda\ \mathrm{Cr}(x_{1},x_{2}, x_{3}, x_{4}, x_{5}|\lambda)}\mathrm{cr}(\lambda)
$$

「うわ、めんどくさそうな式だ」
「そうね、見た目はゴツい。だから、計算は私に任せといて。だけど、大雑把な意味は教えておくね。まず右辺の$${\mathrm{Cr}(\lambda)}$$はあなたがデータを得る前の、平均不良品数に対する信念を表してる。で、左辺はデータを得た後の、平均不良品数に対する信念。これこそ、私たちが知りたいものよね?データを得た後の、あなたの$${\lambda}$$に対する信念だもの。だからこの式は、あなたの信念の合理的な変化を決めてくれているの。」

「もう右辺に登場する信念は決めたから、後はこの定理に基づいて計算すれば、新しい信念が自動的に得られるってことか」
「そういう理解でオッケー。じゃあ実際に計算を進めるね。式の${x_{i}}$にあなたのデータ$${(2, 3, 4, 3, 2)}$$を代入してっと。これをああしてこうして…。あと、面倒だから$${(2, 3, 4, 3, 2)}$$はまとめて$${D}$$と表しちゃお。ええと…あ、間違えてた。こっちがこうだから…できた!」

ベイジーは自分のノートを見ながら、黒板に数式を書いた。

$$
\mathrm{cr}(\lambda|D) = \displaystyle\frac{9^{18}}{18!}\lambda^{18}\exp(-9\lambda)
$$

「図にするとこんな感じだよ。」

ベイジーがボブに見せた図その3

「お、信念が右にずれてる。」
「そう。これはデータがあなたの事前の信念よりも多くの不良品が製造されたことを反映しているの。あなたはより不良品が生じると考えるべきだって、ベイズの定理が言ってるってこと。しかもそれだけじゃない。具体的な数値まで教えてくれるのよ!ベイズの定理って素晴らしい!!」
興奮気味のベイジーは次にこう質問を投げかけた。
「色々と知りたいことがあるでしょ?何でも聞いてよ。」
「この事後の信念に基づくと、最もあり得そうな$${\lambda}$$っていくつなんだろう?」
「任せて!その$${\lambda}$$を$${\lambda_{\mathrm{mode}}}$$と書くことにすると…」
ベイジーは黒板にサラサラと数式をかいた。

$$
\lambda_{\mathrm{mode}} = \argmax_{\lambda}\mathrm{cr}(\lambda|D)=2
$$

「じゃあ、事後信念に基づいたもっともらしい平均不良品数は?」
「それは、不良品数に、その不良品数の信念をかけて、足し上げれば求められるわね。つまり、$${\lambda}$$を$${\mathrm{cr}(\lambda|D)}$$で重み付けして和をとるの。」

$$
\lambda_{\mathrm{mean}} = \int_{0}^{\infty}d\lambda\ \lambda \mathrm{cr}(\lambda|D) = 3
$$

「あと、この信念ってどれくらい揺らいでいるのかな?つまり、データを得た後の不確定さってどれくらいなんだろう?」
「それは信念の広がりの度合いを計算すればいいね。」

$$
不確かさ = \sqrt{\displaystyle\int_{0}^{\infty}d\lambda\ (\lambda-\lambda_{\mathrm{mean}})^{2} \mathrm{cr}(\lambda|D)} \approx 0.48
$$

「うちの工場では1週間の平均不良品数が5を超えてはいけないというルールが決められてる。このルールが破られてしまうリスクはどれくらいと考えるべき?」
「それは、$${\lambda}$$が$${5}$$を超えてしまうという信念で定量化できるわ。」

$$
リスク = \int_{5}^{\infty}\mathrm{cr}(\lambda|D) \approx 0.002
$$

「つまりおよそ$${0.2\%}$$ね。」
「事後の信念がわかると、こんなことまでできるのか!」
「すごいでしょ。」

エピローグ

ベイジーとのプロジェクトを通じて、ボブはデータに基づいて不良品の発生確率を推定する方法を学んた。ベイジーの助けを借りて、ボブはベイズ推定を使って事後分布を計算し、1週間の平均不良品数を3と推定した。さらに、工場のルールを守るためのリスク評価も行い、そのリスクが0.2%であることを確認した。この経験を通じて、ボブは統計学の重要性とその実用性を深く理解した。データに基づいた管理の重要性を再認識し、今後はさらに精度の高いデータ収集と分析を行うことで、工場の製品品質を向上させる決意を新たにした。ベイジーのおかげで、ボブは自信を持って上司に報告し、工場の管理改善に大きく貢献することができた。

「ベイジー、本当にありがとう!」
とボブは感謝し、ベイジーは笑顔で
「どういたしまして!」
と答えました。工場の未来は、明るいものとなった。

ベイジーの追記

下の記事も読むと、この物語がよく理解できるかもしれないから、よかったら読んでみてね!


この記事が気に入ったらサポートをしてみませんか?