見出し画像

数学に関するメモ(4) 【数学とデータサイエンス】

本メモは数学の基礎的な内容に関するメモです。


1. 基本数学 26項目

確率分布関数

1-1. $${p_x}$$
…実数変数xの確率分布関数


1-2. 正規化条件
$${\int dx  p_x = 1}$$


1-3. 平均
$${μ=E[x]=\int dx  x p_x = 1}$$


1-4. 分散
$${σ^2=V[x]=E[x^2]-E[x]^2}$$


ガウス分布、正規分布

…2択のランダムな要素が加算的に加わってできた、線形な事象の確率の分布
→一番重要な分布、多くの事象が従う分布

$$
p_x=\frac{1}{\sqrt{2πσ^2}} e^{-\frac{(x-μ)^2}{2σ^2}}
$$

1-5. ガウス分布の正規化条件
$${\int dx  e^{-\frac{(x-μ)^2}{2σ^2}}}$$において、$${x'=x-μ}$$とおいてガウス積分

→$${\int dx  e^{-\frac{x'^2}{2σ^2}}=\sqrt{2πσ^2}}$$によって満たされる


1-6. ガウス分布の平均
$${E[x]=\int dx  x \frac{1}{\sqrt{2πσ^2}}e^{-\frac{(x-μ)^2}{2σ^2}}}$$
$${=\frac{1}{\sqrt{2πσ^2}} \int dx'  (x'+μ) e^{-\frac{x'^2}{2σ^2}}}$$
$${=\frac{1}{\sqrt{2πσ^2}} \int dx'  μ e^{-\frac{x'^2}{2σ^2}} =μ}$$


1-7. ガウス分布の分散
$${V[x]=\int dx  (x-μ)^2 \frac{1}{\sqrt{2πσ^2}}e^{-\frac{(x-μ)^2}{2σ^2}}}$$
$${=\frac{1}{\sqrt{2πσ^2}} \int dx'  x'^2 e^{-\frac{x'^2}{2σ^2}}}$$

$${\frac{d}{dx'}e^{-\frac{x'^2}{2σ^2}} = -\frac{x'}{σ^2} e^{-\frac{x'^2}{2σ^2}}}$$より、
$${=-\frac{1}{\sqrt{2πσ^2}} \int dx'  x'σ^2  \frac{d}{dx'}e^{-\frac{x'^2}{2σ^2}}}$$

部分積分$${\int dx  f(x)  \frac{d}{dx}g(x)=-\int dx  \frac{d}{dx}f(x) g(x)}$$より、
$${=\frac{1}{\sqrt{2πσ^2}} \int dx'  σ^2  e^{-\frac{x'^2}{2σ^2}}=σ^2}$$


1-8. 標準正規分布
…平均0・分散1の正規分布
→標準化、平均0・分散1の正規分布へ変換、$${z = \frac{x-μ}{σ}}$$、
xがa以上・b 以下になる確率は何%か? 

$$
p_x=\frac{1}{\sqrt{2π}} e^{-\frac{x^2}{2}}
$$


二項分布とポアソン分布

1-9. 二項分布
…表が出る確率pのコインをn回投げてk回表が出る確率の分布

$$
p_k=\binom{n}{k} p^k (1-p)^{n-k}, \quad k = 0, 1, 2, …, n
$$


1-10. 二項分布の平均
$${E[x]=\sum_{k=0}^{n} k  \binom{n}{k} p^k (1-p)^{n-k}}$$
$${=\sum_{k=0}^{n} k \frac{n!}{k!(n-k)!}  p^k (1-p)^{n-k}}$$
$${=np \sum_{k=0}^{n} \frac{n!}{(k-1)!(n-k)!}  p^{k-1} (1-p)^{n-k}}$$
$${=np  \{(n-1)p+1\} =np}$$


1-11. 二項分布の分散
$${E[x^2]=\sum_{k=0}^{n} k^2  \binom{n}{k} p^k (1-p)^{n-k}}$$
$${=np  \sum_{k=0}^{n} k  \frac{n!}{(k-1)!(n-k)!}  p^{k-1} (1-p)^{n-k}}$$
$${=np \{(n-1)p+1\}}$$

$${V[x]=E[x^2]-E[x]^2=np \{(n-1)p+1\}-(np)^2=np(1-p)}$$


1-12. ポアソンの少数の法則
…確率pが非常に小さく試行回数nが大きい場合、二項分布はポアソン分布に近似する

$${np=λ}$$とおくと、$${p= \frac{λ}{n} }$$

$${p_k=\binom{n}{k} p^k (1-p)^{n-k} = \frac{n!}{k!(n-k)!}  (\frac{λ}{n})^k  (1-\frac{λ}{n})^{n-k}}$$
$${=\frac{n!}{k!(n-k)!}  \frac{λ^k}{n^k}  (1-\frac{λ}{n})^{n-k}}$$
$${=\frac{λ^k}{k!}  \frac{n!}{(n-k)!  n^k}  (1-\frac{λ}{n})^n  (1-\frac{λ}{n})^{-k}}$$

ここで、
$${\frac{n!}{(n-k)!  n^k}=\frac{n(n-1)…(n-(k-1))}{n^k}}$$
$${=\frac{n}{n} \frac{n-1}{n}…\frac{(n-(k-1))}{n}}$$
$${=1  \{1-\frac{1}{n}\}… \{1-\frac{k-1}{n}\} }$$
$${→1  (n→∞)}$$

$${-\frac{λ}{n}=h}$$とおくと、$$n={-\frac{λ}{h}}$$、
$${n→∞}$$で$${h→0}$$より、
$${(1-\frac{λ}{n})^n=(1+h)^{-\frac{λ}{n}} =\{(1+h)^{\frac{1}{h}}\}^λ}$$
$${→e^{-λ}  (h→∞,  n→∞)}$$
$${→1  (n→∞)}$$

よって、

$$
\lim_{n \to ∞} p_k =\lim_{n \to ∞} \binom{n}{k} p^k (1-p)^{n-k}=\frac{λ^k}{k!}e^{-λ}
$$


1-13. ポアソン分布
…一定時間の中でめったに起こらない事象の確率の分布

$$
p_k=\frac{λ^k}{k!}e^{-λ}
$$


1-14. ポアソン分布の平均
$${E[x]=\sum_{k=0}^{∞} k  \frac{λ^k}{k!}e^{-λ}}$$
$${=(0  \frac{λ^0}{0!}+ 1  \frac{λ^1}{1!}+ 2  \frac{λ^2}{2!}+…) e^{-λ}}$$
$${=λ(1 + \frac{λ}{1!}+ \frac{λ^2}{2!}+…) e^{-λ}}$$
$${=λ  e^{λ}  e^{-λ}=λ}$$


1-15. ポアソン分布の分散
$${E[x^2]=\sum_{k=0}^{∞} k^2  \frac{λ^k}{k!}e^{-λ}}$$
$${=\sum_{k=0}^{∞} \{ k(k-1)+k\}  \frac{λ^k}{k!}e^{-λ}}$$
$${=\sum_{k=0}^{∞} k(k-1)  \frac{λ^k}{k!}e^{-λ} + \sum_{k=0}^{∞} k  \frac{λ^k}{k!}e^{-λ}}$$
$${=\sum_{k=2}^{∞}  \frac{λ^k}{(k-2)!}e^{-λ} + λ = (\frac{λ^2}{0!}+\frac{λ^3}{1!}+\frac{λ^4}{2!}…)e^{-λ} + λ}$$
$${= λ^2  (1+\frac{λ}{1!}+\frac{λ^2}{2!}…)e^{-λ} + λ}$$
$${= λ^2 + λ}$$

$${V[x]=E[x^2]-E[x]^2=λ^2 + λ- λ^2=λ}$$


ディラックのデルタ関数

1-16. 任意の関数との内積において以下を満たす
$${\int dx  δ(x)f(x) = f(0)}$$

→ガウス分布の幅が小さい極限をとる
$${δ(x)=\lim_{σ \to 0} \frac{1}{\sqrt{2πσ^2}} e^{-\frac{x^2}{2σ^2}}}$$
→ここで右辺のガウス分布は次の積分で表現できる
$${\frac{1}{\sqrt{2πσ^2}}e^{-\frac{x^2}{2σ^2}} = \frac{1}{\sqrt{2π}} \int dw  e^{iwx}  e^{-\frac{σ^2w^2}{2}}}$$

→証明
$${\frac{1}{\sqrt{2π}} \int dw  e^{iwx}  e^{-\frac{σ^2w^2}{2}} =\frac{1}{\sqrt{2π}} \int dw  e^{-\frac{σ^2}{2}(w^2-\frac{2iwx}{σ^2})}}$$
$${=\frac{1}{\sqrt{2π}} \int dw  e^{-\frac{σ^2}{2}(w^2-\frac{2iwx}{σ^2}-\frac{x^2}{σ^4}+\frac{x^2}{σ^4})}}$$
$${=\frac{1}{\sqrt{2π}} \int dw  e^{-\frac{σ^2}{2}\{(w-\frac{2iwx}{σ^2})^2- \frac{x^2}{2σ^2}\}}}$$
$${=\frac{1}{\sqrt{2π}} \int dw  e^{-\frac{σ^2}{2}\{(w-\frac{2iwx}{σ^2})^2- \frac{x^2}{2σ^2}\}}}$$
$${=\frac{1}{\sqrt{2π}} e^{-\frac{x^2}{2σ^2}} \int^{∞-\frac{ix}{σ^2}}_{-∞-\frac{ix}{σ^2}} dw  e^{-\frac{σ^2w^2}{2}}}$$
$${=\frac{1}{\sqrt{2π}} e^{-\frac{x^2}{2σ^2}} \int^∞_{-∞} dw  e^{-\frac{σ^2w^2}{2}}}$$
$${=\frac{1}{\sqrt{2π}} e^{-\frac{x^2}{2σ^2}} \sqrt{\frac{2π}{σ^2}}= {\frac{1}{\sqrt{2πσ^2}}e^{-\frac{x^2}{2σ^2}}}}$$


→したがって以下が得られる

$$
δ(x)=\frac{1}{\sqrt{2π}}\int dw e^{-iwx}
$$


フーリエ変換

…無限区間で定義される関数を複素指数関数の重ね合わせで表すこと
→任意の関数は周期関数の重ね合わせで表せる

1-17. フーリエ変換
-∞<t<∞で定義された関数f(x)のフーリエ像は

$$
\tilde{f}(w)= \int dt  f(t)  e^{iwt} 
$$

よって関数f(t)が実数であっても、そのフーリエ像$${\tilde{f}(w)}$$は複素数系になる


1-18. 逆フーリエ変換

$$
f(t)= \frac{1}{\sqrt{2π}} \int dw  \tilde{f}(w)  e^{-iwt} 
$$


1-19. 再構成
…フーリエ変換と逆フーリエ変換を繰り返すと元の関数を再構成できる

$${\frac{1}{\sqrt{2π}} \int dw  \tilde{f}(w)  e^{-iwt} = \frac{1}{\sqrt{2π}} \int dw  (\int dt'  f(t')  e^{iwt})  e^{-iwt}}$$

ここで、積分順序を変換して
$${= \int dt' f(t')  ( \frac{1}{\sqrt{2π}} \int dw  e^{iw(t'-t)})}$$

デルタ関数の積分表示より
$${= \int dt' f(t')  δ(t'-t)=f(t) }$$

同様にして、
$${\int dt  f(t)  e^{iwt}= \int dt  (\frac{1}{\sqrt{2π}} \int dw'  \tilde{f}(w')  e^{-iwt})  e^{iwt}}$$
$${= \int dw'  \tilde{f}(w')  (\frac{1}{\sqrt{2π}}  \int dt  e^{it(w'-w)})}$$
$${= \int dw'  \tilde{f}(w')  δ(w'-w) = \tilde{f}(w)}$$


ウィーナー・ヒンチン定理

…信号処理における時間・周波数の関係性を表す定理

1-20. 自己相関関数
…信号の時間的な相関性を表す
$${φ(t)= \int dt'  f(t+t') f^*(t')}$$


1-21. パワースペクトル密度
…信号の周波数成分の強さを表す
$${I(w)=\tilde{f}(w) \tilde{f}^*(w)=|\tilde{f}(w)|^2}$$

→自己相関関数はパワースペクトルの逆フーリエ変換で与えられる
$${φ(t)=\frac{1}{\sqrt{2π}} \int dw I(w) e^{-iwt}}$$

→証明
→自己相関関数をフーリエ像で表現する
$${φ(t)= \int dt'  f(t+t') f^*(t') = \int dt' \frac{1}{\sqrt{2π}}\int dw  \tilde{f}(w)  e^{-iw(t+t')} \frac{1}{\sqrt{2π}}\int dw'  \tilde{f}^*(w')  e^{iw't}}$$
$${=\frac{1}{\sqrt{2π}} \int dw \int dw'   \tilde{f}(w)  \tilde{f}^*(w)  e^{-iwt}・\frac{1}{\sqrt{2π}}\int dt' e^{-i(w-w')t'} }$$

デルタ関数の積分表示より、
$${= \frac{1}{\sqrt{2π}} \int dw \int dw'   \tilde{f}(w)  \tilde{f}^*(w)  e^{-iwt}  δ(w-w')}$$
$${= \frac{1}{\sqrt{2π}} \int dw  I(w)  e^{-iwt}}$$

その逆変換も成立する
$${I(w)= \int dt  φ(t)  e^{iwt}}$$
→パワースペクトルは自己相関関数のフーリエ変換で与えられる


1-22. 離散的な点の数値から実データを解析する時
…自己相関を求めるが、N個のデータ標本点から自己相関関数を求めると計算量が多い
→ウィーナー・ヒンチン定理からパワースペクトルの逆フーリエ変換で求められる
→高速フーリエ変換により計算量が少なくなる


ガウス積分と正規乱数

…シミュレーションで乱数が必要な際には一様乱数を用いるが正規乱数を用いる場合もある

1-23. ガウス積分

$${\int dx  e^{-x^2} =π}$$より、
$${\int dx  e^{-\frac{x^2}{2σ^2}}=\sqrt{2π}σ}$$

$${A=\int dx  e^{-\frac{x^2}{2σ^2}}}$$
→ガウス積分の 2 乗を考える
$${A^2=\int dx \int dy  e^{-\frac{(x+y)^2}{2σ^2}}}$$

ここで直交座標での積分から、平面極座標への変換を行う
$${=\int^∞_0 dr  r \int^{2π}_0 dθ  e^{-\frac{r^2}{2σ^2}}}$$
$${=σ^2 \int^∞_0 d(\frac{r}{2σ^2})  e^{-\frac{r^2}{2σ^2}}  \int^{2π}_0 dθ}$$
$${=σ^2 \int^∞_0 dt  e^{-t}  \int^{2π}_0 dθ =2πσ^2}$$
よって、$${A=\sqrt{2π}σ}$$


1-24. ボックス・ミュラー法
…2つの一様乱数から2つの正規乱数を導く
→ガウス積分を導いたのと同様にして直交座標での積分から平面極座標への変換を行う
$${p_{x_1} =\frac{1}{\sqrt{2π}} e^{-\frac{{x_1}^2}{2}}, p_{x_2} =\frac{1}{\sqrt{2π}}e^{-\frac{{x_2}^2}{2}}}$$

$${1=\int d{x_1} \int d{x_2}  e^{-\frac{({x_1}+{x_2})^2}{2}}}$$
$${=\int^∞_0 dr  r  e^{-\frac{r^2}{2}}  \int^{2π}_0 dθ }$$
$${=\int^1_0 d(e^{-\frac{r^2}{2}} )  \int^1_0 d(\frac{θ}{2π})}$$
$${=\int^1_0 du_1  \int^1_0 du_2 =1}$$

よって、
$${u_1= e^{-\frac{r^2}{2}}=e^{-\frac{({x_1}+{x_2})^2}{2}},   u_2 =\frac{θ}{2π}=\frac{arctan(\frac{{x_2}}{{x_1}})}{2π}}$$
を満たせばよい

つまり、
$${{x_1}=rcosθ=\sqrt{-2log{u_1}}  cos(2πu_2), {x_2}=rsinθ=\sqrt{-2log{u_1}}  sin(2πu_2)}$$


1-25. データを無作為に抽出するには一様で相互に独立な乱数を用いるのが望ましい
→巨大シミュレーションを行う上で現実的なランダムさを表現するために乱数が使われる
→モンテカルロ法では一様乱数を用いる、
確率微分方程式の中のガウスノイズのシミュレーションでは正規乱数を用いる
→一回のシミュレーションで用いる乱数の量は膨大であるため、
一様で相互に独立な乱数を効率よく生成するアルゴリズムが考案されている


1-26. はじめは小規模計算をしてチェックを繰り返す
…バグは必ず出るのだからいきなり数時間以上の計算をさせない
→コンピュータが働いている間は一緒に働いている気分なのだろうが物事は何も進展していない


2. 大数の法則と中心極限定理 8項目

…母集団から取り出した標本での統計量についての定理を考える

大数の法則

2-1. 大数の法則
…母集団から標本を取り出すとき、標本数nを大きくするほど、標本平均$${\overline{x}}$$は母平均μに近づく

→標本数を大きくするほど相対頻度は真の確率に近づいていく
→母平均・標本平均の重要性を示す、標本平均を比較すること集団の違いがわかる
→標本はたくさん必要なのか?標本平均をとらなくても1つの標本で比較すれば十分なのでは?


2-2. 大数の弱法則(確率収束)
…母集団から標本を取り出すとき、標本数nを大きくするほど、
標本平均$${\overline{x}}$$は極端な値を取る確率が限りなく0に近づき、母平均μに近い値を取る確率が高くなる

$$
\lim_{n \to \infty}  P (|\frac{({x_1}+{x_2}…+{x_n})}{n}|≧ k)=0
$$

→証明

$${\overline{x}=\frac{({x_1}+{x_2}…+{x_n})}{n}, E[\overline{x}]=μ}$$

標本の独立性より、
$${V[\overline{x}]=\frac{({σ_1}^2+{σ_2}^2…+{σ_n}^2)}{n^2}<\frac{({σ}^2+{σ}^2…+{σ}^2)}{n^2}=\frac{σ^2}{n}}$$

チェビシェフの不等式
$${P( | \overline{x}-E[\overline{x}]| ≧k)≦\frac{V[\overline{x}]}{k^2}}$$より
$${P( | \overline{x}-μ| ≧k)≦\frac{σ^2}{nk^2}}$$
$${→0  (n→∞)}$$

したがって、
$${\lim_{n \to \infty} P(|\frac{({x_1}+{x_2}…+{x_n})}{n}|≧ k)=0}$$


→チェビシェフの不等式の証明
→分散を考える
$${σ=\int^∞_{-∞} dx  (x-μ)^2  p_x ≧\int_{|x-μ|≧kσ}dx  (x-μ)^2  p_x}$$
$${\int_{|x-μ|≧kσ}dx  (x-μ)^2  p_x≧(kσ^2)\int_{|x-μ|≧kσ} dx  p_x}$$

よって、
$${\frac{1}{k^2}≧P(|\overline{x}-μ|≧kσ)\equiv\int_{|x-μ|≧kσ} dx  p_x}$$


2-3. 大数の強法則(概収束)
…母集団から標本を取り出すとき、標本数nを大きくするほど、
標本平均$${\overline{x}}$$は母平均μと等しくなる確率が限りなく1に近づく

$$
P( \lim_{n \to \infty}\frac{{x_1}+{x_2}…+{x_n}}{n} =μ)=1
$$

→証明
→$${\lim_{n \to \infty}\frac{{x_1}+{x_2}…+{x_n}}{n}=μ}$$を評価する
→この事象は、任意のk>0に対して自然数Nが存在し、全てのn>Nに対して$${|\overline{x}-μ| < k, \forall >0, n>0}$$という事象である
→この余事象は、あるkに対して、どんなに大きいNをとってもn>Nが存在し、$${|\overline{x}-μ| ≧ k, for  some  n>N}$$が満たされる事象である

→一方、$${γ_4}$$<N<nのとき、
チェビシェフの不等式
$${P( | \overline{x}-E[\overline{x}]| ≧k)≦\frac{V[\overline{x}]}{k^2}}$$より、

$${P(| \overline{x}-μ]| ≧k) ≧1-(P_N+P_{N+1}…)≧  \{ \frac{1}{N^2}+\frac{1}{(N+1)^2} …\}(1-\frac{1+3σ^4}{k^4})}$$
$${→1  (n→∞)}$$

したがって、
$${P( \lim_{n \to \infty}\frac{{x_1}+{x_2}…+{x_n}}{n} =μ)=1}$$


中心極限定理

2-4. 中心極限定理
…母集団から標本を取り出すとき、標本数nを大きくするほど、母集団の確率分布に関係なく、標本平均$${\overline{x}}$$の確率分布は、母平均μを中心として母分散の$${\frac{1}{n}}$$の分散を持つ正規分布に近づく
→標本平均$${\overline{x}}$$がどれくらい揺らぐのかを示す

→証明
→キュムラント展開を考える


2-5. キュムラント展開
…関数を微分して展開していく、展開された関数は分布の統計量を示す、0を代入
→モーメント母関数M(s)、微分で展開された関数を表す
❶原点周りの1次モーメント→平均
❷平均周りの2次モーメント→分散
❸平均周りの3次モーメント→歪度
❶平均周りの4次モーメント→尖度

→キュムラント母関数C(s)、モーメント母関数の対数

$${\overline{x}=\frac{{x_1}+{x_2}…+{x_n}}{n}}$$のモーメント母関数
$${M(s) \equiv E[e^{\frac{s({x_1}+{x_2}…+{x_n})}{n}}] =\int dx_1dx_2…dx_n  e^{\frac{s({x_1}+{x_2}…+{x_n})}{n}}  p_{x_1}p_{x_2}…p_{x_n}}$$
$${=Π^n_{i=1} \int dx_i  e^{\frac{sx_i}{n}}  p_{x_i}= \{ \int dx  e^{\frac{sx}{n}}  p_{x}\}^n}$$

→テーラー展開すると
$${\int dx  e^{\frac{sx}{n}}p_{x}=\int dx  (1+\frac{s}{n}x+\frac{s^2}{2n^2}x^2+\frac{s^3}{6n^3}x^3+…)p_{x}}$$
$${=1+\frac{s}{n}E[x]+\frac{s^2}{2n^2}E[x^2]+\frac{s^3}{6n^3}E[x^3]+…}$$

→よってキュムラント母関数は
$${C(s) \equiv logM(s) = nlog(1+\frac{s}{n}E[x]+\frac{s^2}{2n^2}E[x^2]+\frac{s^3}{6n^3}E[x^3]+…)}$$

テーラー展開により
$${=n(\frac{s}{n}E[x]+\frac{s^2}{2n^2}E[x^2]-\frac{s^3}{6n^3}E[x^3]+O(\frac{s^3}{n^3}))}$$

キュムラント母関数の定義から
$${C(s)'=\frac{n}{n}E[x]=μ, C(s)''=\frac{n}{n^2}(E[x^2]-E[x]^2)=\frac{σ^2}{n}, C(s)'''=O(\frac{1}{n^2})}$$

したがって
$${\overline{x}}$$は平均μ、分散の$${\frac{σ}{n}}$$の正規分布にしたがって分布する


2-6. 大数の法則・中心極限定理を適用させるには?
…標本・データがランダムに抽出されている必要
→正しく実行するのは非常に難しい


2-7. 大数の法則・中心極限定理を適用できないデータとは?
…パレート性を持つ分布に従うデータ、現実にはこのようなデータも多い
→標本平均$${\overline{x}}$$の標本ごとの揺らぎは大きくなるため、平均をとることは効率の良い方法ではない
→対数の平均をとれば揺らぎは小さくなる、対数の加算平均をとることは元の数の相乗平均をとることに対応する


2-8. 本当に平均でいいのか?
…パレート性を持つ分布に従うデータの場合は外れ値の影響を受けやすい
→中央値なら外れ値の影響を受けにくい


3. ランダムな動きを考える数式 16項目

3-1. ブラウン運動
…ランダムに動き続ける運動

→個々の運動に再現性がないが繰り返せば再現性があると考えられる


3-2. 偏微分
…多変数関数において、他の変数を固定したまま、ある 1 つの変数だけに対して微分すること


3-3. ジョン・ドルトン、原子説、元素は原子という粒子からできている、化合物を構成する元素の質量比が簡単な整数比だった
→ジョセフ・ルイ・ゲイリュサック、気体反応の法則、
気体の反応で消えたり生まれたりした気体の体積が整数比だった
→アメデオ・アボガドロ、分子説、同温同圧のもとで気体は同じ体積中に同じ数の分子を含む、アボガドロ定数、原子説と気体反応の法則を矛盾なく説明
→ジェームズ・クラーク・マクスウェル、気体分子運動論、マクスウェル分布、分子の速度分布関数、気体が分子からできているという前提
→ルートヴィヒ・ボルツマン、気体分子運動論、ボルツマン方程式、分子の速度分布関数を時間発展させた方程式、エントロピーの増大プロセスを論じた
→原子の存在はあくまで仮説、存在を実証する必要


拡散方程式

3-4. 拡散方程式
…ランダムな動きを考える式
→アインシュタインの関係式を導く
→原子の存在を実証できた、原子説が認められた
→ブラウン運動から拡散方程式を導出する

→時刻tで位置$${x_1}$$と$${x_2}$$との間にある粒子の密度$${n_{x,t}}$$
$${\frac{∂}{∂t}n_{x,t}= \int^{x_2}_{x_1} dx  n_{x,t}=J_{{x_1},t}-J_{{x_2},t}}$$
$${\frac{∂}{∂t}n_{x,t}δ_x=J_{x,t}-J_{{x+δx}}}$$
より、
$${\frac{∂}{∂t}n_{x,t}=-\frac{∂}{∂t}J_{x,t}}$$ …(a)

→フィックの法則
拡散現象では密度$${n_{x,t}}$$の勾配の大きさに比例して粒子の流れ$${J_{x,t}}$$が生じる
$${J_{x,t}=-D\frac{∂}{∂x}n_{x,t}}$$ 

これを(a)に代入して
$${\frac{∂}{∂t}n_{x,t}=D\frac{∂}{∂x^2}n_{x,t}}$$


3-5. 拡散方程式を解く
→密度$${n_{x,t}}$$の空間成分をフーリエ変換
$${n_{x,t}=\frac{1}{\sqrt{2π}}\int dw  n_{k,t}  e^{-iwt}}$$
これを拡散方程式に代入する

$${\frac{1}{\sqrt{2π}}\int dw  (\frac{∂}{∂t}-D(-iw)^2) n_{w,t}  e^{-iwt}=0}$$
$${\frac{∂}{∂t} n_{w,t} = -Dw^2\tilde{n}_{w_1,t}}$$
$${n_{w,t} = \tilde{n}_{w} e^{-Dw^2t}}$$

t=0のとき、
$${n_{w,0}=δ_x=\frac{1}{\sqrt{2π}}\int dw  e^{-iwt}}$$から要求して$${n_{w,0}=\frac{1}{\sqrt{2π}} \int dw  e^{-iwt}  n_w=\frac{1}{\sqrt{2π}} \int dw  e^{-iwt}}$$
$${\tilde{n}_w=1}$$

t≧0のとき、
$${n_{w,0}=\frac{1}{\sqrt{2π}} \int dw  e^{-iwx-Dw^2x}}$$


ここで、
$${e^{-iwx-Dw^2x}=e^{-Dt(w+\frac{ix}{2Dt})-\frac{x^2}{4Dt}}}$$
ガウス積分から
$${\int dw e^{-Dt(w+\frac{ix}{2Dt})}=\sqrt{\frac{π}{Dt}}}$$

よって、
$${=\frac{1}{\sqrt{4πDt}}  e^-\frac{x^2}{4Dt}}$$


3-6. 拡散方程式の解
❶平均は変化しないで初期位置のまま
$${E[x]= \int dx  x  n_{w,t}=0}$$

❷分散は時間に比例して増大
$${V[x]= 2Dt}$$

❸標準偏差は時間の平方根に比例して増大
$${σ[x]= \sqrt{2Dt}}$$


アインシュタインの関係式

3-7. アインシュタインの関係式
…外力を受けたブラウン運動を考える式
→外力Kが質量mの粒子に作用する場合を考える
$${m\frac{dv}{dt}=K-\frac{1}{μ}v+ξ}$$
速度の平均は$${K-\frac{1}{μ}{\overline{v}}=0}$$を満たす
$${\overline{v}=Kμ}$$

生じる流れは$${J_{x,t}=\overline{v}n=Kμn}$$より、$${J_{x,t}=Kμn_{x,t}-D\frac{∂}{∂t}n_{x,t}}$$

これを(a)に代入して、
$${\frac{∂}{∂t}n_{x,t}=-Kμ\frac{∂}{∂x}n_{x,t}+D\frac{∂}{∂x^2}n_{x,t}}$$


 3-8. 外力を受けて一様な流れが生じる場合
$${J_{x,t}=Kμn}$$


3-9. 外力を受けた対象が閉じ込められ、流れが消えて平衡状態にある場合
$${J_{x,t}=Kμn_{x,t}-D\frac{∂}{∂t}n_{x,t}=0}$$
$${\frac{∂}{∂x}n_{x,t}=\frac{Kμ}{D}dx}$$を積分すればよい

$${logn=\frac{Kμ}{D}x+C}$$より
$${n_x∝e^{\frac{Kμx}{D}}}$$…底にたまっている$${⇔n_x∝e^{\frac{Kx}{k_BT}}}$$

$$
D=μk_BT
$$

→アボガドロ定数を求めることができる
→粘性抵抗を考える、粘性率η、$${-6πrηv}$$

$${m\frac{dv}{dt}=K-6πrηv}$$より
$${μ=\frac{1}{6πrη}}$$

アインシュタインの関係式より、
$${D=\frac{k_BT}{6πrη}}$$

$${k_B=\frac{R}{N_A}}$$より、
$${N_A=\frac{RT}{6πrηD}}$$


ランダムウォーク

3-10. ランダムウォーク
…ブラウン運動のランダムな動きを単純化して考えた式


3-11. 確率過程
…一定時間Δtごとに、独立ランダムに変動する過程


3-12. ドリフトのないブラウン運動、ランダムウォーク、偏りのないコイン
→平均分散を考える、位置x、コイン投げN回、
表$${N_0}$$回、裏$${N-N_0}$$回
$${x=\{N_0-(N-N_0)Δx\}=(2N_0-N)Δx}$$

$${E[x]=(2E[N_0]-N)Δx}$$
$${E[N_0]・\sum_{N_0=0}^{N}\binom{N}{N_0}N_0p^{N_0}(1-p)^{N-N_0}=Np}$$より
$${=N(2p-1)Δx}$$

$${p=\frac{1}{2}}$$のとき、
$${E[x]=0}$$
$${V[x]=N_0Δx^2}$$
$${σ[x]=\sqrt{N_0}Δx}$$


3-13. ドリフトを受けたブラウン運動、偏りのあるコイン
→平均分散を考える

$${p=\frac{1+ξ}{2}}$$のとき、
$${E[x]=N_0Δx}$$
$${V[x]=N(1-ξ^2)Δx^2}$$
$${σ[x]=\sqrt{N(1-ξ^2)}Δx}$$


ウィーナー過程

3-14. ウィーナー過程
…ランダムウォークの Δt を細かくして考えた式
→ステップ数nの大きい極限を考える、連続時間の極限
→確率微分方程式を導く

・二項分布を最大値近くまで展開すると
$${logf(N_0)=logN!-logN_0-log(N-N_0)!+N_0logp+(N-N_0)log(1-p)}$$

スターリングの公式
$${logN!≒NlogN-N}$$
より
$${logf(N_0)=NlogN-N_0logN_0-(N-N_0)log(N-N_0)+N_0logp+(N-N_0)log(1-p)}$$

→最大値をとるために1階微分を考えると
$${\frac{∂}{∂N_0}logf(N_0)=-logN_0+log(N-N_0)+logp-log(1-p)=0}$$
$${\frac{N-N_0}{N_0}=\frac{1-p}{p}  or  N_0=Np}$$を満たせばよい

→さらに2階微分を考えると
$${\frac{∂^2}{∂N_0^2}logf(N_0)=-\frac{1}{N_0}-\frac{1}{N-N_0}=-\frac{N}{N_0(N-N_0)}}$$
$${N_0=Np}$$では$${\frac{∂^2}{∂N_0^2}logf(N_0)=-\frac{1}{Np(1-p)}}$$
→そこで$${N_0=Np+ΔN_0}$$としてずれを展開すると
$${log(Np+ΔN_0)=-\frac{ΔN_0^2}{2Np(1-p)}+C}$$
$${Np+ΔN_0}$$は$${ΔN_0}$$についてガウス分布に従う


3-15. ドモアブル・ラプラスの極限定理
…表が出る確率pのコインをn回投げてk回表が出る確率は、
nを大きくすると平均np、分散 np(1-p)の正規分布に近づく
→二項分布の正規分布近似

$$
P(Np+ΔN_0)=\frac{1}{\sqrt{2πNp(1-p)}}  e^{-\frac{ΔN_0^2}{2Np(1-p)}} 
$$


逆ガウス分布

3-16. 逆ガウス分布
…ガウス分布での分散過程を通して得れる初期通過時刻の分布
→ランダムウォークを開始して閾値を初めて通過する時刻を考える$${n_{x,t}=\frac{1}{\sqrt{4πDt}}  e^{-\frac{(x-vt)^2}{4Dt}}}$$$${=\frac{1}{\sqrt{4πDt}}  e^{-\frac{x^2}{4Dt}-\frac{v^2t}{4D}+\frac{xv}{2D}}}$$
$${n_{x,t}=\int^t_0 dt'  n_{x-η,x-t'}  f_η(t')}$$

→ラプラス変換により
$${\check{n}_{x,t}=\int^∞_0 dt  \frac{1}{\sqrt{4πDt}}  e^{-\frac{x^2}{4Dt}-\frac{(v^2+4Ds)t}{4D}+\frac{xv}{2D}}}$$
$${\check{n}_{x,t}=\check{f}_η(s)  \check{n}_{x-η,s}}$$

積分公式$${\int^∞_0 dt  \frac{1}{\sqrt{πDt}}  e^{- \frac{z^2}{4t}-st}= \frac{1}{\sqrt{s}} e^{-|z|\sqrt{s}}}$$を用いて
$${z= \frac{x}{\sqrt{D}}, s=\frac{v^2+4Ds}{4D}}$$とおくと


4. ランダムな動きを考える数式に時間経過をプラスして考えた数式 14項目

…ランダム性・不確実性が関係する現象を数学的に予測・解析することができる

ランジュバン方程式

4-1. ランジュバン方程式
…ブラウン運動の挙動が時間経過によって変化する様子を考えた式

$$
\frac{d}{dt}v_t=-rv_t+ξ_t, v_t=v_0  e^{-rt}
$$

→$${ξ_t}$$は揺動力
→揺動力を確率変数とみなすと確率微分方程式となる
→ランジュバン方程式を解く
→直接積分によって解く、未定定数法

→$${v_t=c_t  e^{-rt}}$$とおくと、
$${\frac{d}{dt}v_t=\frac{d}{dt} c_t  e^{-rt}-rc_t  e^{-rt}=-rc_t  e^{-rt}+ξ_t}$$
$${\frac{d}{dt}c_t=ξ_t  e^{-rt}}$$となり
$${c_t=\int^t_0ds  ξ_t  e^{-rt}+c_0$$ $${c_0=v_0}}$$より$${v_t=\int^t_0ds  ξ_s  e^{-r(t-s)}+v_0  e^{-rt}}$$
$${E[ξ_t]=0}$$より$${E[v_t]=v_0  e^{-rt}}$$

→ある時刻tの速度$${v_t}$$と別の時刻t'の速度$${v_{t'}}$$の相関を考えろ$${φ_{t,t'}=E[v_tv_{t'}]=\int^t_0 ds \int^{t'}_0 ds'  E[v_tv_{t'}] e^{-r(t-s+t'-s')}+v_0^2  e^{-r(t+t')}}$$
$${=I_ξ\int^t_0 ds\int^{t'}_0 ds'  δ_{t-t'}  e^{-r(t-s+t'-s')}+v_0^2  e^{-r(t+t')}}$$
$${\frac{I_ξ}{2r}(e^{-r|t-t'|}-e^{-r(t+t')})+v_0^2  e^{-r(t+t')}}$$

→初期条件の記憶が消えた状態では速度の相関は時間差|t-t'|の関数となり
$${φ_{t-t'}=E[v_tv_{t'}]=\frac{I_ξ}{2r}  e^{-r|t-t'|}}$$
$${φ_0=E[v^2]=\frac{I_ξ}{2r}}$$

→$${\frac{mE[v^2]}{2}=\frac{k_BT}{2}}$$に$${φ_0}$$を代入して、
$${\frac{mI_ξ}{2r}=k_BT}$$となるため、
$${φ_{t-t'}=\frac{k_BT}{m}  e^{-r|t-t'|}}$$


→フーリエ変換によって解く
$${v_t=\frac{1}{\sqrt{2π}} \int dw  \tilde{v}_w  e^{-iwt}}$$
$${ξ_t=\frac{1}{\sqrt{2π}} \int dw  \tilde{ξ}_w  e^{-iwt}}$$

→これらをランジュバン方程式に代入して
$${(r-iw)\tilde{v}=\tilde{ξ}_w}$$
複素共役$${(r+iw)\tilde{v}=\tilde{ξ}_w}$$をかけると$$(r^2+w^2)I_{v_w}=I_{ξ_w}$$ …(a)
$${I_{v_w}=|\tilde{v}_w|^2, I_{ξ_w}=|\tilde{ξ}_w|^2}$$

→速度とノイズの自己相関を考える
$${φ_{v_t}=\lim_{x \to \infty}\frac{1}{T} \int^\frac{T}{2}_{-\frac{T}{2}} ds  v_{t+s}  v^*_s}$$
$${=\frac{1}{2π}\int dw  I_{v_w}  e^{-iwt}}$$

同様にして
$${φ_{ξ_t}=\lim_{x \to \infty}\frac{1}{T} \int^\frac{T}{2}_{-\frac{T}{2}} ds  ξ_{t+s}  ξ^*_s}$$
$${=\frac{1}{2π}\int dw  I_{ξ_w}  e^{-iwt}}$$
$${=\frac{1}{2π}\int dw  \frac{1}{w^2+r^2}  I_{ξ_w}  e^{-iwt}}$$

→ウィーナーヒンチン定理より
$${I_{ξ_w}=\int dt  φ_{ξ_t}  e^{-iwt}=\int dt  I_ξ  δ_t e^{-iwt} = I_ξ}$$…一定
→時間の相関がデルタ関数で与えられるノイズ$${ξ_t}$$のパワースペクトルは$${I_ξ}$$となる

→ホワイトノイズを受けた$${φ_{v_t}}$$を考えると
$${φ_{v_t}=\frac{I_ξ}{2π} \int dw  \frac{1}{w^2+r^2}  e^{-iwt}}$$
$${=\frac{I_ξ}{4πir} \int dw  (\frac{1}{w-ir}-\frac{1}{w+ir})  e^{-iwt}}$$
$${=\frac{I_ξ}{4πir} |2πi  e^{-r|t|}}$$
$${=\frac{I_ξ}{2r}  e^{-r|t|}}$$


確率微分方程式

4-2. 確率微分方程式
…確率変数が時間経過によって変動する様子を表す式

→確率過程と微分方程式を組み合わせた式

❶ドリフト項、確率過程の変化を記述する項
❷拡散項、確率過程のランダムな変動を記述する項
❸ウィーナー過程、標準ブラウン運動の微小変動
→通常の微分方程式が連続的な変化を記述するのに対して、
確率微分方程式はランダムな要素や確率的な変動を考慮して記述する


4-3. オイラー法、確率微分方程式の解法
→微分の定義において無限小極限をとらずに十分小さい時間間隔Δtについて近似
→時間間隔Δtを小さくしていくと近似の精度がよくなる

$${\frac{d}{dt}x_t=f(x_t)}$$から
$${\frac{x_{t+Δt}-x_t}{Δt}x_t \approx f(x_t)}$$となり
$${x_{t+Δt}\approx x_t+Δt f(x_t)}$$
よって
$${x_1 \approx x_0+Δt f(x_0)}$$
$${x_2 \approx x_1+Δt f(x_1)}$$

これを繰り返すことで解が決まっていくため
$${x_{i+1}\approx x_i+Δt f(x_i)}$$

→オイラー法は時間間隔Δtの1次までしか近似が成立しない
→実際に積分するときは高次まで保証するためより精密な方法が使われる
→オイラー・丸山法


4-4. オイラー・丸山法

$${\frac{d}{dt}x_t=f(x_t)+ξ_t}$$から
$${x_1 \approx x_0+Δt f(x_0)+Δtξ_0}$$
$${x_2 \approx x_1+Δt f(x_1)+Δtξ_1}$$

$${E[ξ_t]=0, E[ξ_tξ_{t'}]=δ(t-t')}$$より
$${\int^{(i+1)Δt}_{iΔt}dt  E[ξ_t]=0}$$
$${\int^{(i+1)Δt}_{iΔt}dt  \int^{(j+1)Δt}_{jΔt}dt'  E[ξ_tξ_{t'}]=\frac{I_ξ}{Δt}δ_{i,j}}$$

$${x_{i+1} \approx x_i+Δ f(x_i)+\sqrt{Δ}y_i}$$

→時間間隔Δtを使った場合の誤差は大きいので確率微分方程式を特には勧められない
→ルンゲ・クッタ法、時間間隔Δtの各ステップごとに微分方程式にから次のステップの値を計算


結合確率・条件付き確率・遷移確率

4-5. 結合確率
…時刻 t1 のときに事象が区間[x1, x1+dx1)にあり時刻 t2 のときに事象が区間[x2, x2+dx2)にある確率


4-6. 条件付き確率・遷移確率
…事象が区間x1にあったとわかった場合に、時刻t2のとき事象が区間[x2, x2+dx2)にある確率
→結合確率と条件付き確率の関係を考える
→左辺、まずt1のときに区間[x1, x1+dx1)で見つかって、それがt2のときに区間[x2, x2+dx2)に遷移
→右辺、t1のときに区間[x1, x1+dx1)にあり、t2のときに区間[x2, x2+dx2)にある

$$
p_{t_2, t_1}(x_2|x_1)dx_2  p_{t_1}(x_1)dx_1 = p_{t_2, t_1}(x_2, x_1)  dx_2 dx_1
$$


マルコフ過程

4-7. マルコフ過程
…確率分布関数が時間経過によって変動する様子を表す式
→時刻tの確率が1ステップ前の時刻t-1の状態にのみ依存する
→ランダム性・不確実性が関係する現象を数学的に予測・解析することができる

$$
p(x_{i+1}|x_i, x_{i-1}…)=p(x_{i+1}|x_i)
$$


チャップマン・コルモゴロフ方程式

4-10. チャップマン・コルモゴロフ方程式
マルコフ過程では$${p(x_{i+1}, x_i, x_{i-1})=p(x_{i+1}|x_i)  p(x_i|x_{i-1})  p(x_{i-1})}$$

$${p(x_{i+1}, x_{i-1})=\int dx p(x_{i+1}, x_i, x_{i-1})}$$
$${p(x_{i+1}, x_{i-1})=\int dx p(x_{i+1}| x_{i-1})  p(x_{i-1})}$$
より

$$
p(x_{i+1}| x_{i-1})=\int dx_i  p(x_{i+1}| x_i)  p(x_i| x_{i-1})
$$


隠れマルコフモデル

4-9. 隠れマルコフモデル
…観測時系列から背後の状態の変化をマルコフ過程から考えるモデル
→音声認識でマイクで拾った空気振動の変化から発話者の言葉を取り出す、
同じ言葉を繰り返しても空気振動が異なる・発話者が異なると空気振動が異なるにも関わらず、人間は言葉を推測することができる
→言葉・文字の列という潜在変数の変化に応じて空気振動が生まれてその関係は確率的と捉える
→最近では深層学習のパフォーマンスの方がいい


フォッカー・プランク方程式

4-10. フォッカー・プランク方程式
…確率微分方程式に従う系の集団の分布関数が時間経過によって変動する様子を表す式
→ある条件下での時間1階・空間2階の偏微分方程式として表される
$${\frac{d}{dt}x_t=f(x_t)+ξ_t}$$
$${\frac{∂}{∂t}p_t(x)=-\frac{∂}{∂t} f(x)  p_t(x)+D  \frac{∂^2}{∂t^2} p_t(x)}$$

→f(x)の平均の時間変化を考える
$${E[f(x_)]=\int dx  f(x)  p_t(x)}$$
$${\frac{d}{dt} E[f(x)] =\int dx  f(x)  \frac{∂}{∂t} p_t(x)}$$ 
$${\lim_{Δt \to 0} \frac{1}{Δt} \int dx  f(x) \{ p_{t+Δt}(x)-p_t(x) \}  }$$ …(a)

→ここでマルコフ性を仮定してチャップマンコルモゴロフ方程式を用いると
$${\int dx  f(x)  p_{t+Δt}(x) =\int dx  f(x) \int dy  p_{t+Δt}(x|y)  p_t(y)}$$ 

→積分変換により$${\int dy  f(y) \int dx  p_{t+Δt}(y|x)  p_t(x)}$$を(a)に代入すると、
$${\lim_{Δt \to 0}\frac{1}{Δt}\int dx  \{\int dy  f(y)  p_{t+Δt}(y|x) -f(x)\}  p_t(x)}$$ 

→f(y)をテーラー展開すると、
$${f(y)=f(x)+\sum^∞_{n=1} \frac{(y-x)^n}{n!} \frac{d^n}{dx^n} f(x)}$$ 

→$${g_n(x)=\lim_{Δt \to 0}  \frac{1}{Δt}\int dy (y-x)^n  p_{t+Δt, t}(y|x)}$$を導入して、
$${\int dx  f(x) \frac{∂}{∂t} p_t(x) =\int dx  p_t(x) \{ \sum^∞_{n=1}\frac{g_n(x)}{n!}  \frac{d^n}{dx^n} f(x) \} }$$ 
$${=\int dx f(x) \{ \sum^∞_{n=1} \frac{1}{n!}  (-\frac{∂}{∂x})^n  g_n(x)  p_t(x) \} }$$ 

→これは任意の関数f(x)に対して成立するため
$${\frac{∂}{∂x}p_t(x) = \sum^∞_{n=1} \frac{{-1}^n}{n!}  (\frac{∂}{∂x})^n  g_n(x)  p_t(x)}$$ 
これの最初の2項を残すとフォッカープランク方程式となる


オルンシュタイン・ウーレンベック方程式

4-11. オルンシュタイン・ウーレンベック方程式
…確率微分方程式に従う系の集団の状態変数が時間経過によって変動する様子を表す式
→連続時間マルコフ過程を表す
→金融工学のモデリングにも使われる
→ランジュバン方程式に従う運動の速度分布$${p_t(v)}$$ のフォッカープランク方程式を考える
$${g_1(v)=\lim_{Δt \to 0} \frac{1}{Δt} E[Δv]= E[\frac{dv}{dt}] = E[-γv+ξ_t] = -γv}$$ 

→$${g_2(v)}$$を考えるためにランジュバン方程式を積分すると$${Δv=\int^{t+Δt}_t dt  \frac{d}{dt} v_t \approx -γv Δt  \int^{t+Δt}_t dt  ξ_t}$$  

→$${E[Δv^2]=(γv Δt)^2+E[(\int^{t+Δt}_t dt  ξ_t )(\int^{t+Δt}_{t'} dt'  ξ_{t'} )] }$$ となるため、
$${g_2(v)=\lim_{Δt \to 0} \frac{1}{Δt}E[Δv^2]=\lim_{Δt \to 0} \{ (γv)^2Δt +\frac{1}{Δt}\int^{t+Δt}_t dt  \int^{t+Δt}_{t'} dt'  E[ξ_tξ_{t'}] \} }$$
$${=\lim_{Δt \to 0} \frac{1}{Δt} \int^{t+Δt}_t dt  \int^{t+Δt}_{t'} dt'  I_ξδ_{t-t'}}$$ 
$${=\lim_{Δt \to 0} \frac{I_ξ}{Δt} \int^{t+Δt}_t dt = I_ξ = \frac{2γk_BT}{m}}$$ 

→最初の2項だけ考えればよいため
$${\frac{∂}{∂t}p_t(v) =γ  \frac{∂}{∂v}v p_t(v)+ \frac{2γk_BT}{m}  \frac{∂^2}{∂v^2}p_t(v)}$$ 


多次元ガウス分布

4-12. 多次元ガウス分布
…ガウス分布を多次元に拡張した分布
→確率変数はベクトル、複数で相互に関連している
→指数関数の肩が多変量の 2 次形式で表されている、定数×指数関数(多変数の2 次関数)
→時刻 t における状態 x が多次元ガウス分布に従う場合を考える
$${p_t(x_1, x_2…x_n) ∝ e^{-\frac{1}{2} \sum_{i}\sum_{j} a_{i, j} x_ix_j+\sum_{i}b_ix_i}}$$ 

→$${μ_i= \sum_{j} A^{-1}_{i,j} b_j}$$とおくと、
$${p_t(x_1, x_2…x_n) ∝ e^{-\frac{1}{2} \sum_{i}\sum_{j} a_{i, j}(x_i-μ_i)(x_j-μ_j)}}$$ 
$${A^{-1}_{i,j} =\sum^∞_{i,j} \equiv E[(x_i-μ_i)(x_j-μ_j)] }$$ 
→Aの逆行列は共分散行列に等しく、$${μ_i}$$は$${x_i}$$の平均値に等しい
→この多次元ガウス分布についての関係式は確率過程に限定されない
→時間軸を細かく分割し、時刻tにおける状態xを時間に依存する関数x(t)とみなせば、状態遷移の結合確率を汎関数p{x(t)}とみなせる、モーメント母関数も汎関数となる
→状態遷移の結合確率がガウス分布に従うとガウス過程となる、汎関数に多次元ガウス分布のモーメント母関数を対応させる

→証明
→モーメント母関数を考える
$${M= \int \int d(x_1, x_2…x_n)  p(x_1, x_2…x_n)  e^{\sum^n_{i=1}s_ix_i}  }$$ 
→ここにガウス分布を入れる
$${e^{-\frac{1}{2} \sum_{i}\sum_{j} a_{i, j}(x_i-μ_i)(x_j-μ_j)+\sum^n_{i=1}s_ix_i}}$$に比例する


$${A=\begin{pmatrix} a_{11} & a_{12} & \dots & a_{1n} \\ a_{21} & a_{22} & \dots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{n1} & a_{n2} & \dots & a_{nn} \end{pmatrix}}$$として
$${x=\begin{pmatrix} x_1 \\  x_2 \\  \vdots  \\ x_n \end{pmatrix}}$$
$${M=\begin{pmatrix} M_1 \\  M_2 \\  \vdots  \\ M_n \end{pmatrix}}$$
を用いると、
$${M(s) ∝  \int dx  e^{-\frac{1}{2}(x-μ)^TA(x-μ)+s^Tx} }$$ 

→ベクトルbを選んでy=a-bを代入すると、
$${\frac{1}{2}(y+b-μ)^TA(y+b-μ)+s^T(y+b)}$$ 
$${=\frac{1}{2}y^TAy-(b-μ)^TAy-\frac{1}{2}(b-μ)^TA(b-μ) +s^Ty+s^Tb)}$$ 
$${=-\frac{1}{2}y^TAy-\frac{1}{2}s^TA^{-1}s+s^T(μ+A^{-1}s)}$$ 
$${=-\frac{1}{2}y^TAy+\frac{1}{2}s^TA^{-1}s+s^Tμ}$$ 

よって、

$$
M(s)=c  e^{\frac{1}{2}s^TA^{-1}s+s^Tμ} \int dy  e^{\frac{1}{2}y^TAy} = e^{\frac{1}{2}s^TA^{-1}s+s^Tμ}
$$

cはM(0)=1より計算しなくてよい

$$
C(s)= logM(s)= \frac{1}{2}s^TA^{-1}s+s^Tμ
$$

1次キュムラントより$${μ_i=E[x_i]}$$
2次キュムラントより$${{\sum_{i,j} = E[xx^T]}= E[x]E[x^T]= A^{-1}}$$


ガウス過程

4-13. ガウス過程
…関数をランダムに抽出するモデル
→無限次元の出力としての関数、パラメータを分布という確率密度で表す
→曖昧さを持たせたままモデル化できる、非線形な関係もモデル化できる

$${M(s_t)=e^{\int^t_0 dt' st' x_{t'}}}$$ 
$${M(s)=e^{\frac{1}{2}s^TA^{-1}s+s^Tμ}}$$ 

$${{\int^t_0 dt' s(t')  x_{t'}}\approx \sum_{i} Δts(iΔt)  x(iΔt) ↔︎ \sum_{i} s_ix_i}$$ 
$${\frac{1}{2}s^TA^{-1}s ↔︎ \int^t_0 dt' \int^t_0 dt''  s(t')  A^{-1}(t',t'') s(t'')}$$ 
$${s^Tμ ↔︎  \int^t_0 dt'  s(t')  μ(t') }$$ 
$${A^{-1}=\sum ↔︎ E[x_{t'}-μ_{t'}] E[x_{t''}-μ_{t''}] = φ_{t',t''}}$$
より

$$
C(s)=\int^t_0 dt'  s(t')  μ(t')+\frac{1}{2} \int^t_0 dt' \int^t_0 dt'  s(t')  s(t'')  φ_{t',t''}
$$

$$
φ_{t',t''}= E[x_{t'}x_{t''}] -μ_{t'}μ_{t''}
$$


4-14. オルンシュタイン・ウーレンベック方程式をガウス過程として解く
…ランジュバン方程式$${\frac{dv}{dt}-γv+ξ_t}$$から$${v_t}$$の分布を調べたい
 →$${v_t}$$のモーメント母関数を求める
$${M(s)\equiv E[e^{svt}]=E[e^{s(vt-v_0e^{-γt})}]  e^{sv_0e^{-γt}}}$$
$${=e^{\frac{s^2}{2}\int^t_0 dt'\int^t_0 dt''E[ξ_{t'}ξ_{t''}]  e^{-γ(t-t')}  e^{-γ(t-t'')} +sv_0e^{-γt} }}$$
$${=e^{\frac{s^2}{2} I_ξ\int^t_0 dt'  e^{-2γ(t-t')} +sv_0e^{-γt} }}$$  
$${=e^{\frac{s^2}{2} I_ξ \frac{1-e^{-2γt}}{2γ} +sv_0e^{-γt} }}$$  
$${=e^{sv_0e^{-γt} +\frac{s^2k_BT}{2m}(1-e^{-2γt})}}$$  

したがって、$${v_t}$$の分布$${p_{t,0}(v|v_0)}$$は平均$${v_0e^{-γt}}$$ 、分散$${\frac{k_BT}{m}(1-e^{-2γt})}$$のガウス分布である
$${p_{t,0}(v|v_0)=(\frac{m}{2πk_BT(1-e^{-2γt})})^\frac{1}{2}  e^{\frac{m(v-v_0e^{-γt})}{2k_BT(1-e^{-2γt})}}}$$ 


5. 自己回帰モデル

…確率過程だけでは現実のデータを扱うことはできない

5-1. 非線形モデリング
…解析解を得るのは難しい
→解析解が求まらなくても与えられた微分方程式を離散化して階差方程式を数値的に解く
→非線形関数は作れるが精度はモデル開発者の経験・勘に依存する


自己回帰モデル、ARモデル

5-2. 自己回帰モデル、ARモデル
…ある時刻tの値を、時刻t以前のデータを使って回帰するモデル
→与えられたデータは線形階差方程式で表されているがそれだけでは表せない要素 ξ が加わる
$${x_t=α_1x_{t-1}+α_2x_{t-2}…α_nx_{t-n}+ξ_t}$$ 

→残差平方和の最小化を考える
$${E=\sum^{N-n}_{u=1}ξ^2_{n+u}=\sum^{N-n}_{u=1}(x_{n+u}-\sum^n_{t=1}α_t  x_{n+u-t})^2 }$$ 
$${\frac{∂}{∂α_t}E=\sum^{N-n}_{n=1}x_{n+u-t}(x_{n+u}-\sum^n_{t'=1}α_{t'}  x_{n+u-{t'}})=0 }$$ 
$${φ_{t,t'}=\frac{1}{N-n}\sum^∞_{u=1} x_{n+u-t}  x_{n+u-{t'}} }$$
$${φ_{t,0}=\sum^n_{t'=0}α_{t'} φ_{t,t'} }$$  

$${\begin{pmatrix} α_1 \\  α_2 \\  \vdots  \\ α_n \end{pmatrix}=\begin{pmatrix}a_{11} & a_{12} & \dots & a_{1n} \\ a_{21} & a_{22} & \dots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{n1} & a_{n2} & \dots & a_{nn} \end{pmatrix}^{-1} \begin{pmatrix} φ_1 \\  φ_2 \\  \vdots  \\ φ_n \end{pmatrix}}$$

→残差分散、平均二乗誤差、モデルがデータに適合しているかを考える
$${σ^2=\frac{E}{N-n}=\frac{1}{N-n}\sum^{N-n}_{u=1}ξ^2_{n+u}}$$
$${=φ_{0,0}-2 \sum^n_{t=1}α_t  φ_{0,t}+ \sum^n_{t=1}\sum^n_{t'=1}α_t  α_{t'}  φ_{t,t'}}$$
$${=φ_{0,0}-2 \sum^n_{t=1}α_t  φ_{0,t}+ \sum^n_{t=1}α_i  φ_{i,0}}$$
$${=φ_{0,0}-\sum^n_{t=1}α_t  φ_{0,t} }$$ 

→自己回帰モデルの階数が低いと時系列データにフィットしない
→階数が高すぎるとオーバーフィッティングが起こる
→モデル選択のためにはデータの一部を取り除いてモデル・パラメータを決め、取り除いたデータを決めたモデルによってどのくらい表せられるかを調べる
→交差検定、取り除くデータを換えながらその度にモデル・パラメータを決める
→AIC(赤池情報量規準)を最小化する次数を選択、対数尤度 l にモデル次数 m を引いた量を最大化、交差検定することなくモデルを選択できる


5-3. なぜ回帰と呼ぶのか?
…先祖に向かった回帰が起こっていると表現されたから
→平均から外れた特質は遺伝で引き継がれようとするが平均的には集団の分布に向かっていく、自分の子が自分よりも優れていることは平均的には少ない
→平均から外れた特質は絶えずゆらぎによって生み出され安定的な分布を保つ


6. ベイズ統計 21項目

…確率にデータを加えて考える
→条件付き確率が必要

モンティホール問題

6-1. モンティホール問題
❶3個の部屋がある、1つの部屋にはお金が入っている
❷どの部屋にお金があるか出題者は知っている、あなたはわからない
❸あなたは1部屋選ぶ
❹出題者は残りの2部屋のうち、お金がない部屋を開けて見せる
❺あなたは最初に選んだか、開けられていない部屋のどちらかを選べる
→あなたは最初に選んだ部屋のままにした方が得か?
→変更しない 1/3、変更する2/3
→出題者が賞品がある部屋を知らずに賞品がない部屋を開けて見せた場合、
変更しない 1/2、変更する1/2

→選択肢を多くすればわかりやすいのでは?
❶100個の部屋がある、1つの部屋にはお金が入っている
❷どの部屋にお金があるか出題者は知っている、あなたはわからない
❸あなたは1部屋選ぶ
❹出題者は残りの99部屋のうち、賞品がない部屋を98個開けて見せる
❺あなたは最初に選んだ部屋か、開けられていない部屋のどちらかを選べる
→あなたは最初に選んだ部屋のままにした方が得か?
→変更しない1/100、変更する99/100


ベイズの定理

6-2. ベイズの定理
…確率は新しく加わった情報によって更新されるという定理

→どの仮説が関係してそうかを考える
→観測によって得られた有限の手がかりから直接観測できなかったパラメータを推定するという目的
で使われるため事後分布は実験的に再現できない
→分布は確率というよりは確からしさの分布、主観確率


6-3. 事前確率
…データを投入する前の仮説の確率、P(仮説)
→事前確率は尤度に触れて事後確率へ変わる


6-4. 尤度
…データのもっともらしさを表す、P(データ|仮説)


6-5. 事前確率
…データを投入する前の仮説の確率、P(仮説|データ)


6-6. 200人に電話する
Aという人が80人
Bという人が50人
AでありBという人が10人
→ランダムに1人に電話して、その人がBであるときAである確率は?
(10/80) * (80/200) / (50/200) = 0.20

→データという考えを導入
→Bの部分をデータに変更する
→あるデータが与えられた時、Aである確率は?
→データが発生する確率は事象Bが発生する確率と同じ
→データ投入前の事象Aの確率は80/200 = 0.40
→データ投入後の事象Aの確率は(10/80) * (80/200) / (50/200) = 0.20

→仮説という考えを導入
→Aの部分を仮説に変更する
→あるデータが与えられた時、仮説が発生する確率は?
→あるデータ(事象)が発生したがその原因は原因1である確率は?原因 2 である確率は?
→あるデータが与えられた時、複数の仮説のうちどの仮説が発生しやすいか?を検証できる
P(仮説) = 80/200 = 0.40
P(データ) = 50/200 = 0.25
P(仮説|データ) = (10/80) * (80/200) / (50/200) =0.20


6-7 . 200 人に電話する
仮説Aである人が80人
→Xであるというデータが50人、AであるときXである人が10人

→ランダムに1人に電話して、Aである確率は?
仮説1、Aである確率、P(仮説1) = 80/200 = 0.40
仮説2、Aでない確率、P(仮説2) = 80/200 = 0.60

→ランダムに1人に電話して、その人が X であるときAである確率は?
P(仮説 1|データ) = P(データ|仮説1) * P(仮説 1) / P(データ) = (10/80) * (80/200) / (50/200) =0.20
P(仮説 2|データ) = P(データ|仮説2) * P(仮説 2) / P(データ) = (40/120) * (120/200) / (50/200) =0.80
→データを投入する前に1だと思えば1の確率をあげても良い、データにより仮説1の確率は減少

仮説・P(仮説)・ P(データ|仮説)・ P(データ|仮説)*P(仮説)合計・ P(仮説|データ)


ブラックスワン理論

6-8. ブラックスワン理論
…知識・経験からは予測できないような極端な事象が発生しうる

→100万年に1回の出来事でも発生する可能性に備える必要がある
→頻度主義の限界


6-9. 頻度主義
…事象が起こる頻度で推測を考える
→尤度の概念が重要
→最尤法によってデータを表現する力を最大化できる
→標本中に事象が見つからなかった場合は最尤推定量pは0%となる
→二項分布を考える、n回中表が$${n_0}$$回、パラメータpの事後分布は
$${\tilde{p}(n_0)=L(p)=\binom{n}{n_0}  p^{n_0}(1-p)^{n-n_0}}$$ 
$${logL(p)=log \binom{n}{n_0}+n_0logp+(n-n_0)log(1-p)}$$ 
$${\frac{∂}{∂p}L(p)=\frac{n_0}{p}-\frac{n-n_0}{1-p}=0}$$ $${\tilde{p}=\frac{n_0}{n}}$$ 

事象が起きにくくなるとポアソン分布に近似、$${n±\sqrt{n_0}}$$のゆらぎ$${\tilde{p}=\frac{n_0}{n}+\frac{\sqrt{n_o}}{n}}$$ 


6-10. 不偏推定量
…母分散に対して平均的に偏りがない推定量
→上記の分散の推定量は基本的に n/n−1 のずれがあるためその分を補正した推定量が不偏推定量


6-11. 一致推定量
…母分散に対して漸近的に一致していく推定量
→標本数nの極限で一致する


6-12. ベイズ主義
…主観確率を受け入れて仮説の確からしさを考える
→確信度が経験によって変更される


6-13. ベイズの定理を使ってコインの表が出る確率 p を推定する
…理由不十分の原理、パラメータpについて事前知識がないため一様分布を選ぶ、区間の中でどの値が選ばれるという理由がない
→二項分布を考える、n回中表が$${n_0}$$回、パラメータpの事後分布は$${p(p|n_0)=\frac{p(n_0|p)p(p)}{p(n_0)}}$$ 
$${p(n_0|p)=\binom{n}{n_0}  p^{n_0}  (1-p)^{n_0}}$$ 

→一様分布という事前分布のもとで計算すると
$${p(0)=\int^1_0 dp' p(n_0|p')  p(p')= \binom{n}{n_0}\int^1_0 dp'  p'^{n_0}  (1-p')^{n-n_0}}$$ 

→事後分布は
$${p(p|n_0)=\frac{p^{n_0}  (1-p)^{n-n_0}}{B(n_0+1,  n-n_0+1)}}$$ 

→事後分布のピーク位置は
$${\frac{∂}{∂p}logp(p|n_0)=\frac{n_0}{p}-\frac{n-n_0}{1-p}=0}$$ 
$${\tilde{p}=\frac{n_0}{n}}$$ 

→最尤推定量と同じ
→事後分布のピーク位置の周りの広がりを考える
$${\frac{∂^2}{∂p^2}logp(p|n_0)=-\frac{n_0}{p^2}-\frac{n-n_0}{(1-p)^2}=-\frac{n^3}{n_0(n-n_0)}}$$ 
$${logp(μ+Δp|n_0)\approx-\frac{n^3Δp^2}{2n_0(n-n_0)}+C}$$ 
$${p(μ+Δp|n_0)∝ e^{-\frac{Δp^2}{\frac{2x_0}{n^2}}}}$$ 
$${\tilde{p}=μ±σ=\frac{n_0}{n}±\frac{\sqrt{n_0}}{n}}$$ 

→頻度主義と同じ結論が得られた
→ベイズでは確率分布の更新が行われる
n回中表が$${n_0}$$回という知識のもとで、n’回中表が$${n_0'}$$回でる確率
→n’が十分に大きければゆらぎは小さく$${n_0'=n’p}$$が成り立つとしてよい
→$${n_0'}$$の分布の広がりは事実上pの分布の広がりで決まる
→標本中に事象が見つからなかった場合pの事後分布の広がりを考えることで期待値を求められる
→事後分布が得られたときに1つのパラメータを代表値として示す場合はどうやって選ぶのか?
→期待損失を最小化する


6-14. 0-1 損失関数
…パラメータが事後平均に一致している場合は 0・それ以外は 1 となる関数
$${E[X] = \begin{cases}\ 0  (p=α) \\ 1  (otherwise) \end{cases}}$$

$${E[α]=|p-α|}$$より、最小化条件は 
$${ \frac{d}{dx}|p-α| = \begin{cases}\ 1  (p<α) \\ -1  (otherwise) \end{cases}}$$

→$${\overline{E}[α]=\int^1_0 dp  |p-α|  p(p|n_0)}$$の最小化条件は 
$${ \frac{d}{dx}\overline{E}[α] = \int^α_0 dp  p(p|n_0)-\int^1_0 dp  p(p|n_0)=0}$$

よって、
$${\int^{p^*}_0 dp  p(p|n_0)-\int^{1}_{p^*} dp  p(p|n_0) }$$ 
となる$${p^*}$$が存在、事後中央値 

また$${E[α]=(p-α)^2}$$より
$${\overline{E}[α]=\int^1_0 dp  (p-α)^2  p(p|n_0)}$$
$${ \frac{d}{dx}\overline{E}[α] = -\int^1_0 dp  2p  p(p|n_0)+2α=0}$$
$${p^*=\int^1_0 dp  p p(p|n_0)=E[p] }$$ 


逐次近似法

6-15. 逐次近似法
…統計検定で必要とされる標本数を固定せずに行う方法
→結論を出すのに十分な情報を得るまで標本をとっていく
→現実は標本数が固定せず時間経過とともに観測データが増えていく中で判断しなければならない


6-16. バンバリスムス
…アランチューリングが同様の解析法を考案していた
→エニグマ、換字式の暗号、1 文字打ち込んで暗号化されるたびに円盤が回転して変換規則が変わる
→解読が難しい、変換規則の数は限りなく多い・暗号円盤の選択・配線ボードは毎日異なる
→2つの暗号文が同じ暗号円盤・配線ボードで符号化されているか
異なる暗号円盤・配線ボードで符号化されているかを考える
仮説$${H_0}$$、2つの暗号文が異なる構成で符号化された
仮説$${H_1}$$、2 つの暗号文が同じ構成で符号化された
→暗号文にはドイツ語の26文字がランダムに並ぶため、
異なる構成で符号化されるとランダムに見える、
同じ構成で符号化されると元の文章の文字の出現比率は不均一であるため
暗号文の文字が一致する比率が高くなる
→2つの暗号文の文字のペアがマッチする確率を考える
p(m|h0)、ドイツ語の 26 文字のペアがランダムに選ばれてマッチする確率
p(m|h1)、ドイツ語の文章に使われるドイツ語の文字が互いにマッチする確率
p(m|h0)<p(m|h1)
→エビデンスの重み、log{p(m|h1)/p(m|h1)}
文章におけるこの値の和が確信度合いを表す
→エビデンスの重みの和が一定値を超えれば$${H_1}$$、一定値以下であれば$${H_0}$$


6-17. 情報の偏りを調べる
…コイン投げの偏り
→$${h_1}$$・表がでやすい、$${h_0}$$・裏がでやすい
→$${x_1}$$・表がでた、$${x_0}$$・裏がでた
→p(x|h)を考える

$$\begin{array}{|c|c|c|} \hline
 & h_1  表がでやすい & h_0  表がでやすい \\ \hline
x_1  表がでた & \frac{1+ε}{2} & \frac{1-ε}{2}  \\ \hline
x_0  裏がでた & \frac{1-ε}{2} & \frac{1+ε}{2} \\ \hline
\end{array}$$

→表がでやすいか裏がでやすいかの確信度合いを理由不十分の原理を用いて表すと
$${p(h_1)=0.50, p(h_0)=0.50, ε=0.20}$$ 
$${p(h_1|x_1)=\frac{p(x_1|h_1)p(h_1)}{p(x_1|h_1)p(h_1)+p(x_1|h_0)p(h_0)}= \frac{1+ε}{2}=0.60 }$$ 

→1回目のコイン投げで表がでたとき、表が出やすいという確信がある時
$${p(h_1)=0.60, p(h_0)=0.40, ε=0.20}$$ 
$${p(h_1|x_1)=\frac{p(x_1|h_1)p(h_1)}{p(x_1|h_1)p(h_1)+p(x_1|h_0)p(h_0)}=0.70 }$$ 

→このように経験で主観確率が更新される
→主観確率が元に戻る場合もある


ベイズ更新

6-18. ベイズ更新
…観測データを次々と受け取って 2 択について確信度合いを更新していく確率過程

→仮説1が存在する、情報がない場合は仮説 1 の確率は適当に設定
→データ1を投入、仮説1の確率は変化する、事後確率1
→新しくデータ2を投入、仮説1の確率は変化する、P(仮説1|データ1, データ2)
→次々とコイン投げを行なってその結果から確信度合いを更新するモデルを考えると

$${p(h_1|x)=\frac{p(x|h_1)p(h_1)}{p(x|h_1)p(h_1)+p(x|h_0)p(h_0)}}$$より、$${\frac{1}{p(h_1|x)}=1+\frac{p(x|h_0)p(h_0)}{p(x|h_1)p(h_1)}}$$
$${\frac{1}{p(h_1|x)}-1=1+\frac{p(x_n|h_0)}{p(x_n|h_1)}\frac{p(x_{n-1}|h_0)}{p(x_{n-1}|h_1)}(\frac{1}{p_1}-1)}$$
$${=e^{-wn}}$$ 
$${\frac{1}{(1+e^{-wn})}}$$ 

→n回行った時のエビデンスの重みをロジスティック関数に入れれば
表がでやすいか裏がでやすいかの確信度合いが決まる


6-19. ロジスティック関数
…エビデンスの重みを入れると0か1かの確信度合いが決まる関数
→n回行って、上の閾値に達したら1になりやすい、下の閾値に達したら0になりやすい
$${Δw=log \frac{p(x|h_1)}{p(x|h_0)}=log \frac{1-ε}{1+ε}\approx -2ε}$$ 
$${w_n=n_0Δw-(n-n_0)Δw}$$ 

→エビデンスの重みの変化をランダムウォークに例えると、
毎回の試行で表がでれば右に進み裏がでれば左に進むという動き
→上の閾値に達したら表がでやすい、下の閾値に達したら裏がでやすい
→確率パラメータ x の確信が観測データを受け取るとともにどう変化するか
→分布 p(x)の形が確信の様子を表す
→連続関数は自由度が∞で解析が困難
→共役事前分布の考え方で分布の変化を少数の数で表現する方法を考える


6-20. 共役事前分布
…尤度をかけて事後分布を求めるとその関数形が同じとなる事前分布

→二項分布の共役事前分布を考える
→確率パラメータxのコインをn回投げて表が$${n_0}$$回でる二項分布は
確率パラメータxの関数であるとみなすとその関数は尤度関数である
→x依存性は
$${p(n_0|p)∝p^{n_0}(1-p)^{n-n_0}}$$ 

→事前分布を
$${p(p)∝p^{α-1}(1-p)^{β-1}}$$ 
という関数にするとコインをn回投げて表が$${n_0}$$回でたという観測データが得られた後の事後分布は
$${p(p|n_0)∝p(n_0|p)  p(p)∝p^{n_0+α-1}(1-p)^{n-n_0+β-1}}$$ 
$${(α,β)→(n_0+α,  n-n_0+β)}$$ 


6-21. ある数だけ電話する
仮説Aという人が2/4、仮説Bという人が 1/4、仮説Cという人が1/4
→Xであるというデータが取れる、1/10
→理論値は
BであるときXである確率は2/10
CであるときXである確率は3/10
→XであるときAである確率は?2/7、事後確率1

→Yであるというデータが取れる
理論値は
AであるときYである確率は 4/10
BであるときYである確率は 1/10
CであるときYである確率は 1/10
→YであるときAである確率は?8/13、事後確率1を事前確率として利用

→提案
❶データZがこれくらいいると仮定していきましょう、理論値的に仮説Aの確率が高まるので
❷データZをとってみましょう、どの仮説の確率をどれだけ変動させるかみてみましょう

電話した5人のうち、
Aを持っているという人は 3 人
→Aの保持率の確率分布は?二項分布に従う
→Aを持っているという人は3人というデータを投入、
事前分布をベータ分布、事後分布もベータ分布、
平均・分散・最頻値の算出が楽、B(1,1)→B(4,3)
→電話した10人のうち、Aを持っているという人は5人というデータを投入、B(4,3)→B(9,8)


7. カルマンフィルタ 5項目

7-1. ガウス分布の共役事前分布を考える
…ブラウン運動をする粒子の位置x、元々$${μ_1}$$にあって時間経過で$${ σ_1}$$程度拡散したとする
→事前分布はガウス分布
$${p(p)=p_{μ,σ}(p)=\frac{1}{\sqrt{2πσ_1^2}}  e^{-\frac{(p-μ_1)^2}{2σ_1^2}}}$$ 
$${p(μ_2|p)=\frac{1}{\sqrt{2πσ_2^2}}  e^{-\frac{(p-μ_2)^2}{2σ_2^2}}}$$ 

→粒子の真の位置はこの分布の位置x、測定した位置を$${μ_2}$$・誤差の範囲は$${ σ_2}$$として
$${p(p|μ_2)=\frac{p(μ_2|p)p(p)}{p(μ_2)}}$$ 
$${log  p(p|μ_2)=log  p(μ_2|p)+log  p(p)+C=-\frac{(p-μ_2)^2}{2σ_2^2}-\frac{(p-μ_1)^2}{2σ_1^2} }$$ 
→この関係から事後分布の対数の形がどうなるかを考え、そこから事後分布の平均・分散を考える
$${=-\frac{1}{2}(\frac{1}{σ^2_2}+\frac{1}{σ^2_1})p^2+(\frac{μ_2}{σ^2_2}+\frac{μ_1}{σ^2_1})p+C }$$ 

ここで$${\frac{1}{σ^2_3} =\frac{1}{σ^2_2} +\frac{1}{σ^2_1}}$$とおくと$${=-\frac{1}{2σ^2_3}\{p^2-2σ^2_3(\frac{μ_2}{σ^2_2}+\frac{μ_1}{σ^2_1})p\}+C}$$ 
$${=-\frac{1}{2σ^2_3}\{p-σ^2_3(\frac{μ_2}{σ^2_2}+\frac{μ_1}{σ^2_1})\}^2+C}$$ 

ここで$${μ_3=\frac{μ_2}{σ^2_2}+\frac{μ_1}{σ^2_1}}$$とおくと
$${=-\frac{1}{2σ^2_3}(p-μ_3)^2+C}$$ 

$${p(p|μ_2)=e^{-\frac{(p-μ_2)^2}{2σ^2_3}}}$$ 

→事後分布の平均は事前分布の平均$${μ_1}$$と条件付き分布の平均$${μ_2}$$のウェイト付き平均
$${\frac{1}{σ^2_3} =\frac{1}{σ^2_2} +\frac{1}{σ^2_1}}$$
$${μ_3=(\frac{σ^2_1}{σ^2_1+σ^2_2})μ_2+(\frac{σ^2_2}{σ^2_1+σ^2_2})μ_1}$$とおくと
$${=-\frac{1}{2σ^2_3}(p-μ_3)^2+C}$$ 


カルマンフィルタ

7-2. カルマンフィルタ
…次々と誤差のある観測データを受け取って状態の変化を推定していく確率過程
→観測データからその背後にあるパラメータを推定するのに使える

・次々と変化するノイズありのデータ$${x_i}$$、隠れ状態$${θ_i}$$
→隠れ状態$${θ_i}$$は1ステップ前の隠れ状態 $${θ_{i-1}}$$とデータ$${x_i}$$を受け取って変化する
→マルコフ性、2ステップ以上前の状態は直接的に影響しない
→隠れマルコフモデルの連続状態バージョンとして考えることができる


7-3. 状態方程式
…隠れ状態を表す方程式

$$
θ_i=A_iθ_{i-1}+ξ_i
$$ 

→$${A_iθ_i}$$は時間変化を記述する発展方程式
→平均 0・分散σ^2 の揺らぎ$${ξ_i}$$が加わる
→まず定常的確率過程を考える、$${A_i}$$=1
$${x_i=O_iθ_i+η_i}$$ 
$${p(θ_{i-1})=N|\hat{θ}_{i-1},  \hat{δ}^2_{i-1}|}$$ 
$${p(θ_i)=N|\hat{θ}_{i-1},  \hat{δ}^2_{i-1}+γ^2|∝ e^{-\frac{(θ_i-θ_{i-1})^2}{2(δ_i^2+γ^2)} }}$$ 
$${p(x_i|θ_i)=N|\hat{θ}_{i-1},  σ^2|∝e^{-\frac{(x_i-θ_i)^2}{2σ^2}}}$$ 

$${p(θ_i|x_i)∝p(x_i|θ_i)p(θ_i)}$$より
$${\frac{1}{σ_i^2}+\frac{1}{σ^2}+\frac{1}{σ_{i-1}^2+γ^2}}$$  
$${\hat{θ_i}=\frac{(δ^2_{i-1}+γ^2)x_i+σ\hat{θ_{i-1}}}{δ^2_{i-1}+γ^2+σ^2} }$$ 

→観測によって示された新規情報Δxi
$${Δx_i=x_i-\hat{θ}_{i-1}}$$を用いる 


7-4. 状態更新式
…隠れ状態が新規情報で更新される様子を表す方程式

$$
\hat{θ}_i=\hat{θ}_{i-1}+K_iΔx_i
$$ 


7-5. カルマンゲイン
…新規情報をどれくらい受け入れるか

$$
K_i=\frac{δ^2_{i-1}+γ^2}{δ^2_{i-1}+γ^2+σ^2} 
$$ 

→ブラウン運動をする粒子をカルマンフィルタで考える
$${\frac{1}{δ^2}=\frac{1}{δ^2+γ^2}+\frac{1}{σ^2} }$$ 
$${K=\frac{δ^2+γ^2}{δ^2+γ^2+σ^2}=\frac{δ^2}{σ^2}=\frac{γ^2(\frac{\sqrt{1+4σ^2}}{γ^2}-1)}{2σ^2} }$$ 
$${\hat{θ}_i=\hat{θ}_{i-1}+K_iΔx_i=(1-K)\hat{θ}_{i-1}+Kx_i}$$

→誤差$${σ^2}$$が拡散度$${γ^2}$$に比べて十分に大きいとき
$${K\approx \frac{γ^2}{2σ^2} \frac{2σ}{γ}=\frac{γ}{σ}}$$   
$${\hat{θ}_i=K \sum^{i-1}_{j=1}(1-K)^j  x_{i-j}+(1-K)^i  \hat{θ}_0}$$
$${\hat{θ}_t=K \int ds  e^{-Ks}  x(t-s)+e^{-Kt}  \hat{θ}_0}$$


おわりに

ここまでご覧いただき、ありがとうございます。
修正すべき点やご意見などあればXでお声をいただければと思います。
修正の際は、番号を指定して、フォーマットをなんとなく合わせていただけると助かります。

この記事が気に入ったらサポートをしてみませんか?