見出し画像

PRML自習ノート - chapter 6 -

Exercise (6.1) - (6.10)

Exercise (6.1)

$$
\begin{align*}
\mathbf{a}&=(\mathbf{K}+\lambda\mathbf{I}_N)^{-1}\textsf{\textbf{t}}\\
&=\left(\lambda\mathbf{I}_N+\boldsymbol\Phi\boldsymbol\Phi^{\rm T}\right)^{-1}\textsf{\textbf{t}}\\
&=\left(\lambda\mathbf{I}_N+\boldsymbol\Phi\mathbf{I}_M\boldsymbol\Phi^{\rm T}\right)^{-1}\textsf{\textbf{t}}\\
&=\left\{\frac{1}{\lambda}\mathbf{I}_N-\frac{1}{\lambda}\mathbf{I}_N\boldsymbol\Phi\left(\mathbf{I}_M+\boldsymbol\Phi^{\rm T}\frac{1}{\lambda}\mathbf{I}_N\boldsymbol\Phi\right)^{-1}\boldsymbol\Phi^{\rm T}\frac{1}{\lambda}\mathbf{I}_N\right\}\textsf{\textbf{t}}\\
&=\left\{\frac{1}{\lambda}\mathbf{I}_N-\frac{1}{\lambda^2}\boldsymbol\Phi\left(\mathbf{I}_M+\frac{1}{\lambda}\boldsymbol\Phi^{\rm T}\boldsymbol\Phi\right)^{-1}\boldsymbol\Phi^{\rm T}\right\}\textsf{\textbf{t}}\\
&=\frac{1}{\lambda}\textsf{\textbf{t}}-\frac{1}{\lambda^2}\boldsymbol\Phi\left(\mathbf{I}_M+\frac{1}{\lambda}\boldsymbol\Phi^{\rm T}\boldsymbol\Phi\right)^{-1}\boldsymbol\Phi^{\rm T}\textsf{\textbf{t}}\\
&=\frac{1}{\lambda}\textsf{\textbf{t}}-\frac{1}{\lambda^2}\boldsymbol\Phi\left(\mathbf{I}_M+\frac{1}{\lambda}\boldsymbol\Phi^{\rm T}\boldsymbol\Phi\right)^{-1}\sum_{n'=1}^Nt_{n'}\boldsymbol\phi(\mathbf{x}_{n'})
\end{align*}
$$

より,

$$
\begin{align*}
a_n&=\frac{1}{\lambda}t_n-\frac{1}{\lambda^2}\boldsymbol\phi^{\rm T}(\mathbf{x}_{n})\left\{\left(\mathbf{I}_M+\frac{1}{\lambda}\boldsymbol\Phi^{\rm T}\boldsymbol\Phi\right)^{-1}\sum_{n'=1}^Nt_{n'}\boldsymbol\phi(\mathbf{x}_{n'})\right\}\\
&=\frac{1}{\lambda}t_n-\frac{1}{\lambda^2}\left\{\left(\mathbf{I}_M+\frac{1}{\lambda}\boldsymbol\Phi^{\rm T}\boldsymbol\Phi\right)^{-1}\sum_{n'=1}^Nt_{n'}\boldsymbol\phi(\mathbf{x}_{n'})\right\}^{\rm T}\boldsymbol\phi(\mathbf{x}_{n})\\
&=-\frac{1}{\lambda}\left[\frac{1}{\lambda}\left\{\left(\mathbf{I}_M+\frac{1}{\lambda}\boldsymbol\Phi^{\rm T}\boldsymbol\Phi\right)^{-1}\sum_{n'=1}^Nt_{n'}\boldsymbol\phi(\mathbf{x}_{n'})\right\}^{\rm T}\boldsymbol\phi(\mathbf{x}_{n})-t_n\right]
\end{align*}
$$

と式変形できる。
{ }の部分を$${\mathbf{w}}$$に書き換えることにより,式(6.4)に帰着する。



Exercise (6.2)

$${\mathbf{w}^{(0)}=\mathbf{0}}$$とおくと,式(4.55)に従って学習された$${\mathbf{w}}$$は,

$$
\begin{align*}
\mathbf{w}&=\sum_{n\in\mathcal{M}}\eta t_n\boldsymbol\phi(\mathbf{x}_n)\\
&:=\sum_{n\in\mathcal{M}}\alpha_n\boldsymbol\phi(\mathbf{x}_n)\\
&=\boldsymbol\Phi^{\rm T}\boldsymbol\alpha
\end{align*}
$$

と書ける。
この表式を式(4.54)に代入すると,

$$
\begin{align*}
E_{\rm P}(\boldsymbol\alpha)&:=-\sum_{n\in\mathcal{M}}\left(\boldsymbol\Phi^{\rm T}\boldsymbol\alpha\right)^{\rm T}\boldsymbol\phi(\mathbf{x}_n)t_n\\
&=-\boldsymbol\alpha^{\rm T}\boldsymbol\Phi\sum_{n\in\mathcal{M}}\boldsymbol\phi(\mathbf{x}_n)t_n\\
&=-\boldsymbol\alpha^{\rm T}\boldsymbol\Phi\boldsymbol\Phi^{\rm T}\textsf{\textbf{t}}\\
&=-\boldsymbol\alpha^{\rm T}\mathbf{K}\textsf{\textbf{t}}
\end{align*}
$$

が得られる。

$$
\begin{align*}
\frac{\partial E_{\rm P}(\boldsymbol\alpha)}{\partial \alpha_n}&=-\left(\mathbf{K}\textsf{\textbf{t}}\right)_n\\
&=-\sum_{m\in\mathcal{M}}k(\mathbf{x}_n,\mathbf{x}_m)t_m\\
\therefore \alpha_n^{(\tau+1)}&=\alpha_n^{(\tau)}+\eta k(\mathbf{x}_n,\mathbf{x}_m)t_m
\end{align*}
$$



Exercise (6.3)

$$
\begin{align*}
\|\mathbf{x}-\mathbf{x}_n\|^2&=\left(\mathbf{x}-\mathbf{x}_n\right)^{\rm T}\left(\mathbf{x}-\mathbf{x}_n\right)\\
&=\mathbf{x}^{\rm T}\mathbf{x}+\mathbf{x}_n^{\rm T}\mathbf{x}_n-2\mathbf{x}^{\rm T}\mathbf{x}_n\\
&=:k(\mathbf{x},\mathbf{x})+k(\mathbf{x}_n,\mathbf{x}_n)-2k(\mathbf{x},\mathbf{x}_n)
\end{align*}
$$



Exercise (6.4)

2×2行列$${\mathbf{A}}$$を

$$
\begin{align*}
\mathbf{A}&=\begin{pmatrix}a & b\\ c & d\end{pmatrix}
\end{align*}
$$

とする。
$${\mathbf{A}}$$の固有値を$${\lambda}$$とすると,

$$
\begin{align*}
\begin{vmatrix}
a - \lambda& b \\
c & d -\lambda
\end{vmatrix}&=(a - \lambda)(d - \lambda)-bc\\
&=\lambda^2-(a+d)\lambda+(ad-bc)\\
&=0\\
\therefore \lambda&=\frac{1}{2}\left\{(a+d)\pm\sqrt{(a+d)^2-4(ad-bc)}\right\}\\
&=\frac{1}{2}\left\{(a+d)\pm\sqrt{(a-d)^2+4bc}\right\}
\end{align*}
$$

例えば,$${a=\sqrt{5},\ b=1,\ c=-1,\ d=0}$$と選ぶと$${\frac{1}{2}\left(\sqrt{5}\pm 1\right)}$$となり,負の成分を含む行列の固有値が正の値となる例が得られる。



Exercise (6.5)

$${k(\mathbf{x},\mathbf{x}')=ck_1(\mathbf{x},\mathbf{x}')}$$とする。
$${c>0}$$かつ$${k_1(\mathbf{x},\mathbf{x}')}$$が有効カーネルの場合,任意のベクトル$${\mathbf{u}}$$に対して

$$
\begin{align*}
\mathbf{u}^{\rm T}\mathbf{K}\mathbf{u}&=c\left(\mathbf{u}^{\rm T}\mathbf{K}_1\mathbf{u}\right)\\
&\geq 0
\end{align*}
$$

となるため,式(6.13)の$${k(\mathbf{x},\mathbf{x}')}$$も有効カーネルとなる。


$${k(\mathbf{x},\mathbf{x}')=f(\mathbf{x})k_1(\mathbf{x},\mathbf{x}')f(\mathbf{x}')}$$とする。
$${k_1(\mathbf{x},\mathbf{x}')}$$が有効カーネルの場合,任意のベクトル$${\mathbf{u}}$$に対して

$$
\begin{align*}
\mathbf{u}^{\rm T}\mathbf{K}\mathbf{u}&=\sum_{n}\sum_{n'}u_nk(\mathbf{x}_n,\mathbf{x}_{n'})u_{n'}\\
&=\sum_{n}\sum_{n'}\left\{f(\mathbf{x}_n)u_n\right\}k_1(\mathbf{x}_n,\mathbf{x}_{n'})\left\{f(\mathbf{x}_{n'})u_{n'}\right\}
\end{align*}
$$

ここで,$${\mathbf{v}:=\begin{pmatrix}f(\mathbf{x}_1)u_1 & f(\mathbf{x}_2)u_2 &\cdots&f(\mathbf{x}_N)u_N\end{pmatrix}^{\rm T}}$$とおくと,

$$
\begin{align*}
{\rm r.h.s}&=\sum_{n}\sum_{n'}v_mk_1(\mathbf{x}_n,\mathbf{x}_{n'})v_{n'}\\
&=\mathbf{v}^{\rm T}\mathbf{K}_1\mathbf{v}\\
&\geq 0
\end{align*}
$$

となるため,式(6.14)の$${k(\mathbf{x},\mathbf{x}')}$$も有効カーネルとなる。



Exercise (6.6)

$${q(x)=\sum_ia_ix^i,\ a_i\geq0}$$とする。
$${k_1(\mathbf{x},\mathbf{x}')}$$が有効カーネルの場合,任意のベクトル$${\mathbf{u}}$$に対して式(6.15)は

$$
\begin{align*}
\mathbf{u}^{\rm T}\mathbf{K}\mathbf{u}&=\sum_{n}\sum_{n'}u_nk(\mathbf{x}_n,\mathbf{x}_{n'})u_{n'}\\
&=\sum_{n}\sum_{n'}u_nq\left(k_1(\mathbf{x}_n,\mathbf{x}_{n'})\right)u_{n'}\\
&=\sum_ia_i\sum_{n}\sum_{n'}u_n\left\{k_1(\mathbf{x}_n,\mathbf{x}_{n'})\right\}^iu_{n'}
\end{align*}
$$

となる。
$${i=2}$$のとき,

$$
\begin{align*}
\left\{k_1(\mathbf{x},\mathbf{x}')\right\}^2&=k_1(\mathbf{x},\mathbf{x}')\boldsymbol\phi^{\rm T}(\mathbf{x})\boldsymbol\phi(\mathbf{x}')\\
&=\sum_m\phi_m(\mathbf{x})k_1(\mathbf{x},\mathbf{x}')\phi_m(\mathbf{x}')
\end{align*}
$$

式(6.14)より$${\phi_m(\mathbf{x})k_1(\mathbf{x},\mathbf{x}')\phi_m(\mathbf{x}')}$$は有効カーネルであるため,$${\left\{k_1(\mathbf{x},\mathbf{x}')\right\}^2}$$は有効カーネルである。
また,$${\{k_1(\mathbf{x},\mathbf{x}')\}^{l}}$$が有効カーネルであると仮定すると,

$$
\begin{align*}
\left\{k_1(\mathbf{x},\mathbf{x}')\right\}^{l+1}&=\left\{k_1(\mathbf{x},\mathbf{x}')\right\}^{l}\boldsymbol\phi^{\rm T}(\mathbf{x})\boldsymbol\phi(\mathbf{x}')\\
&=\sum_m\phi_m(\mathbf{x})\left\{k_1(\mathbf{x},\mathbf{x}')\right\}^{l}\phi_m(\mathbf{x}')
\end{align*}
$$

となるため,$${\{k_1(\mathbf{x},\mathbf{x}')\}^{l+1}}$$も有効カーネルとなる。
以上より,$${i\geq1}$$で$${\{k_1(\mathbf{x},\mathbf{x}')\}^{i}}$$が有効カーネルとなるため,$${\{k_1(\mathbf{x}_n,\mathbf{x}_{n'})\}^{i}}$$を$${(n,n')}$$成分にもつ行列を$${\mathbf{K}_1^{(i)}}$$とおくと,

$$
\begin{align*}
\mathbf{u}^{\rm T}\mathbf{K}\mathbf{u}&=\sum_ia_i\sum_{n}\sum_{n'}u_n\left\{k_1(\mathbf{x}_n,\mathbf{x}_{n'})\right\}^iu_{n'}\\
&=\sum_ia_i\mathbf{u}^{\rm T}\mathbf{K}_1^{(i)}\mathbf{u}\\
&\geq 0
\end{align*}
$$

が得られ,式(6.15)の$${k(\mathbf{x},\mathbf{x}')}$$も有効カーネルとなる。


$$
\begin{align*}
\exp\left\{k_1(\mathbf{x},\mathbf{x}')\right\}&=\sum_{i=0}^{\infty}\frac{1}{i!}\left\{k_1(\mathbf{x},\mathbf{x}')\right\}^i
\end{align*}
$$

となるため,式(6.15)より$${k_1(\mathbf{x},\mathbf{x}')}$$が有効カーネルであれば$${\exp\left\{k_1(\mathbf{x},\mathbf{x}')\right\}}$$も有効カーネルである。



Exercise (6.7)

$${k_1(\mathbf{x},\mathbf{x}'),\ k_2(\mathbf{x},\mathbf{x}')}$$が共に有効カーネルの場合,任意のベクトル$${\mathbf{u}}$$に対して式(6.17)は

$$
\begin{align*}
\mathbf{u}^{\rm T}\mathbf{K}\mathbf{u}&=\sum_{n}\sum_{n'}u_nk(\mathbf{x}_n,\mathbf{x}_{n'})u_{n'}\\
&=\sum_{n}\sum_{n'}u_n\left\{k_1(\mathbf{x}_n,\mathbf{x}_{n'})+k_2(\mathbf{x}_n,\mathbf{x}_{n'})\right\}u_{n'}\\
&=\sum_{n}\sum_{n'}u_nk_1(\mathbf{x}_n,\mathbf{x}_{n'})u_{n'}+\sum_{n}\sum_{n'}u_nk_2(\mathbf{x}_n,\mathbf{x}_{n'})u_{n'}\\
&=\mathbf{u}^{\rm T}\mathbf{K}_1\mathbf{u}+\mathbf{u}^{\rm T}\mathbf{K}_2\mathbf{u}\\
&\geq 0
\end{align*}
$$

となり,式(6.17)の$${k(\mathbf{x},\mathbf{x}')}$$は有効カーネルとなる。


$$
\begin{align*}
k_1(\mathbf{x},\mathbf{x}')k_2(\mathbf{x},\mathbf{x}')&=k_1(\mathbf{x},\mathbf{x}')\boldsymbol\phi_2^{\rm T}(\mathbf{x})\boldsymbol\phi_2(\mathbf{x}')\\
&=\sum_m\boldsymbol\phi_{2m}(\mathbf{x})k_1(\mathbf{x},\mathbf{x}')\boldsymbol\phi_{2m}(\mathbf{x}')
\end{align*}
$$

と式変形できる。
式(6.14)より$${\boldsymbol\phi_{2m}(\mathbf{x})k_1(\mathbf{x},\mathbf{x}')\boldsymbol\phi_{2m}(\mathbf{x}')}$$は有効カーネルであるため,$${k_1(\mathbf{x},\mathbf{x}')k_2(\mathbf{x},\mathbf{x}')}$$も有効カーネルである。



Exercise (6.8)

$${k_3(\cdot,\cdot)}$$が有効カーネルであるならば,$${k(\mathbf{x},\mathbf{x}')=k_3(\boldsymbol\phi(\mathbf{x}),\boldsymbol\phi(\mathbf{x}'))}$$も有効カーネルであるのは自明。


半正定値行列$${\mathbf{A}}$$の固有値,固有ベクトルをそれぞれ$${\{\lambda_i\},\ \{\mathbf{e}_i\}}$$とすると,

$$
\begin{align*}
\mathbf{K}&=\mathbf{X}^{\rm T}\mathbf{A}\mathbf{X}\\
&=\mathbf{X}^{\rm T}\left(\sum_i\lambda_i\mathbf{e}_i\mathbf{e}^{\rm T}\right)\mathbf{X}\\
&=\sum_i\lambda_i\left(\mathbf{X}^{\rm T}\mathbf{e}_i\right)\left(\mathbf{e}_i^{\rm T}\mathbf{X}\right)\\
&=\sum_i\lambda_i\begin{pmatrix}\mathbf{x}_1^{\rm T}\mathbf{e}_i\\\mathbf{x}_2^{\rm T}\mathbf{e}_i\\ \vdots \\ \mathbf{x}_N^{\rm T}\mathbf{e}_i\end{pmatrix}\begin{pmatrix}\mathbf{e}_i^{\rm T}\mathbf{x}_1& \mathbf{e}_i^{\rm T}\mathbf{x}_2 & \cdots & \mathbf{e}_i^{\rm T}\mathbf{x}_N\end{pmatrix}\\
&=:\sum_i\lambda_i\mathbf{v}_i\mathbf{v}_i^{\rm T}
\end{align*}
$$

とかけるため,任意のベクトル$${\mathbf{u}}$$に対して

$$
\begin{align*}
\mathbf{u}^{\rm T}\mathbf{K}\mathbf{u}&=\sum_i\lambda_i\mathbf{u}^{\rm T}\mathbf{v}_i\mathbf{v}_i^{\rm T}\mathbf{u}\\
&=\sum_i\lambda_i\left(\mathbf{v}_i^{\rm T}\mathbf{u}\right)^2\\
&\geq 0
\end{align*}
$$

が成立する。
以上より,式(6.20)は有効カーネルである。



Exercise (6.9)

$${k_a(\mathbf{x}_{na},\mathbf{x}_{n'a})}$$を$${(n,n')}$$成分にもつ行列を$${\mathbf{K}_a}$$,$${k_b(\mathbf{x}_{nb},\mathbf{x}_{n'b})}$$を$${(n,n')}$$成分にもつ行列を$${\mathbf{K}_b}$$とおくと,任意のベクトル$${\mathbf{u}}$$に対して

$$
\begin{align*}
\mathbf{u}^{\rm T}\mathbf{K}\mathbf{u}&=\mathbf{u}^{\rm T}\left(\mathbf{K}_a+\mathbf{K}_b\right)\mathbf{u}\\
&=\mathbf{u}^{\rm T}\mathbf{K}_a\mathbf{u}+\mathbf{u}^{\rm T}\mathbf{K}_b\mathbf{u}\\
&\geq 0
\end{align*}
$$

が成立する。
以上より,式(6.21)は有効カーネルである。


$${k_b(\mathbf{x}_{b},\mathbf{x}_{b}')=\boldsymbol\phi_b^{\rm T}(\mathbf{x}_{b})\boldsymbol\phi_b(\mathbf{x}_{b})=\sum_m\phi_{mb}(\mathbf{x}_{b})\phi_{mb}(\mathbf{x}_{b}')}$$とおくと,

$$
\begin{align*}
\mathbf{u}^{\rm T}\mathbf{K}\mathbf{u}&=\sum_n\sum_{n'}u_nk(\mathbf{x}_n,\mathbf{x}_{n'})u_{n'}\\
&=\sum_n\sum_{n'}u_n\left\{k_a(\mathbf{x}_{na},\mathbf{x}_{n'a})k_b(\mathbf{x}_{nb},\mathbf{x}_{n'b})\right\}u_{n'}\\
&=\sum_n\sum_{n'}u_n\left[k_a(\mathbf{x}_{na},\mathbf{x}_{n'a})\left\{\sum_m\phi_{mb}(\mathbf{x}_{nb})\phi_{mb}\mathbf{x}_{n'b})\right\}\right]u_{n'}\\
&=\sum_m\sum_n\sum_{n'}\left\{u_n\phi_{mb}(\mathbf{x}_{nb})\right\}k_a(\mathbf{x}_{na},\mathbf{x}_{n'a})\left\{u_{n'}\phi_{mb}(\mathbf{x}_{n'b})\right\}\\
&=:\sum_m\sum_n\sum_{n'}\left\{\mathbf{v}\right\}_nk_a(\mathbf{x}_{na},\mathbf{x}_{n'a})\left\{\mathbf{v}\right\}_{n'}\\
&=\sum_m\mathbf{v}^{\rm T}\mathbf{K}_a\mathbf{v}\\
&\geq 0
\end{align*}
$$

が成立する。
以上より,式(6.22)は有効カーネルである。



Exercise (6.10)

$${k(\mathbf{x},\mathbf{x}')=f(\mathbf{x})f(\mathbf{x}')}$$を式(6.9)に代入すると,

$$
\begin{align*}
y(\mathbf{x})&=\mathbf{k}(\mathbf{x})^{\rm T}(\mathbf{K}+\lambda\mathbf{I}_N)^{-1}\textsf{\textbf{t}}\\
&=\begin{pmatrix}f(\mathbf{x}_1)f(\mathbf{x})& f(\mathbf{x}_2)f(\mathbf{x})&\cdots f(\mathbf{x}_N)f(\mathbf{x})\end{pmatrix}(\mathbf{K}+\lambda\mathbf{I}_N)^{-1}\textsf{\textbf{t}}\\
&=\left\{\begin{pmatrix}f(\mathbf{x}_1)& f(\mathbf{x}_2)&\cdots f(\mathbf{x}_N)\end{pmatrix}(\mathbf{K}+\lambda\mathbf{I}_N)^{-1}\textsf{\textbf{t}}\right\}f(\mathbf{x})\\
&\propto  f(\mathbf{x})
\end{align*}
$$

となり,$${f(\mathbf{x})}$$に比例する解が得られる。

Exercise (6.11) - (6.20)

Exercise (6.11)

$$
\begin{align*}
\exp\left(-\frac{\|\mathbf{x}-\mathbf{x}'\|^2}{2\sigma^2}\right)&=\exp\left(-\frac{\mathbf{x}^{\rm T}\mathbf{x}}{2\sigma^2}\right)\exp\left(\frac{\mathbf{x}^{\rm T}\mathbf{x}'}{\sigma^2}\right)\exp\left(-\frac{\mathbf{x}'^{\rm T}\mathbf{x}'}{2\sigma^2}\right)\\
&=\exp\left(-\frac{\mathbf{x}^{\rm T}\mathbf{x}}{2\sigma^2}\right)\left\{\sum_{n=0}^{\infty}\frac{1}{n!}\left(\frac{\mathbf{x}^{\rm T}\mathbf{x}'}{\sigma^2}\right)^n\right\}\exp\left(-\frac{\mathbf{x}'^{\rm T}\mathbf{x}'}{2\sigma^2}\right)\\
&=\exp\left(-\frac{\mathbf{x}^{\rm T}\mathbf{x}}{2\sigma^2}\right)\left\{\sum_{n=0}^{\infty}k_n(\mathbf{x},\mathbf{x}' )\right\}\exp\left(-\frac{\mathbf{x}'^{\rm T}\mathbf{x}'}{2\sigma^2}\right)\ \ \ \ \left(k_n(\mathbf{x},\mathbf{x}' ):=\frac{1}{n!}\left(\frac{\mathbf{x}^{\rm T}\mathbf{x}'}{\sigma^2}\right)^n\right)\\
&=\exp\left(-\frac{\mathbf{x}^{\rm T}\mathbf{x}}{2\sigma^2}\right)\left\{\sum_{n=0}^{\infty}\boldsymbol\phi_n^{\rm T}(\mathbf{x})\boldsymbol\phi_n(\mathbf{x}' )\right\}\exp\left(-\frac{\mathbf{x}'^{\rm T}\mathbf{x}'}{2\sigma^2}\right)\ \ \ \ \left(k_n(\mathbf{x},\mathbf{x}' )=:\boldsymbol\phi_n^{\rm T}(\mathbf{x})\boldsymbol\phi_n(\mathbf{x}' )\right)\\
&=\sum_{n=0}^{\infty}\boldsymbol\psi_n^{\rm T}(\mathbf{x})\boldsymbol\psi_n(\mathbf{x}' )\ \ \ \ \left(\boldsymbol\psi_n(\mathbf{x}):=\exp\left(-\frac{\mathbf{x}^{\rm T}\mathbf{x}}{2\sigma^2}\right)\boldsymbol\phi_n(\mathbf{x})\right)\\
&=\boldsymbol\varphi^{\rm T}(\mathbf{x})\boldsymbol\varphi(\mathbf{x}' )\ \ \ \ \left(\boldsymbol\varphi(\mathbf{x}):=\begin{pmatrix}\boldsymbol\psi_0^{\rm T}(\mathbf{x}) & \boldsymbol\psi_1^{\rm T}(\mathbf{x})& \cdots\end{pmatrix}^{\rm T}\right)
\end{align*}
$$

以上より,$${\exp\left(-\frac{\|\mathbf{x}-\mathbf{x}'\|^2}{2\sigma^2}\right)}$$の特徴ベクトル$${\boldsymbol\varphi(\mathbf{x})}$$は無限次元である。



Exercise (6.12)

集合$${D}$$の部分集合は$${2^{|D|}}$$個あり,それらを$${U_i\ (i=1,2,\cdots,2^{|D|})}$$とする。
集合$${D}$$のある部分集合$${A}$$に対して,特徴ベクトルを$${\boldsymbol\phi(A)=\begin{pmatrix}\phi_{U_1}(A) & \phi_{U_2}(A)& \cdots \phi_{U_{2^{|D|}}}(A)\end{pmatrix}^{\rm T}}$$と定義すると,

$$
\begin{align*}
k(A_1, A_2)&=\boldsymbol\phi^{\rm T}(A_1)\boldsymbol\phi(A_2)\\
&=\sum_{i=1}^{2^{|D|}}\phi_{U_i}(A_1)\phi_{U_i}(A_2)
\end{align*}
$$

$${\phi_{U_i}(A_1)\phi_{U_i}(A_2)}$$が$${U_i\subseteq (A_1\cap A_2)}$$のときに1,それ以外で0となることを考えると,$${k(A_1, A_2)}$$は$${A_1\cap A_2}$$の部分集合数に一致することがわかる。

$$
\begin{align*}
\therefore k(A_1, A_2)&=2^{|A_1\cap A_2|}
\end{align*}
$$



Exercise (6.13)

$$
\begin{align*}
\frac{\partial}{\partial \theta_i}\ln p(\mathbf{x}|\boldsymbol\psi(\boldsymbol\theta))&=\sum_j\frac{\partial\psi_j}{\partial \theta_i}\frac{\partial}{\partial \psi_j}\ln p(\mathbf{x}|\boldsymbol\psi(\boldsymbol\theta))\\
&=\frac{\partial\boldsymbol\psi^{\rm T}(\boldsymbol\theta)}{\partial \theta_i}\mathbf{g}(\boldsymbol\psi, \mathbf{x})
\end{align*}
$$

より,

$$
\begin{align*}
\mathbf{g}(\boldsymbol\psi(\boldsymbol\theta), \mathbf{x})&=\nabla_{\boldsymbol\theta}\ln p(\mathbf{x}|\boldsymbol\psi(\boldsymbol\theta))\\
&=\begin{pmatrix}\frac{\partial\boldsymbol\psi^{\rm T}(\boldsymbol\theta)}{\partial \theta_1}\mathbf{g}(\boldsymbol\psi, \mathbf{x})\\ \frac{\partial\boldsymbol\psi^{\rm T}(\boldsymbol\theta)}{\partial \theta_2}\mathbf{g}(\boldsymbol\psi, \mathbf{x})\\ \vdots\end{pmatrix}\\
&=\begin{pmatrix}\frac{\partial\boldsymbol\psi^{\rm T}(\boldsymbol\theta)}{\partial \theta_1}\\ \frac{\partial\boldsymbol\psi^{\rm T}(\boldsymbol\theta)}{\partial \theta_2}\\ \vdots\end{pmatrix}\mathbf{g}(\boldsymbol\psi, \mathbf{x})\\
&=:\boldsymbol\Psi\mathbf{g}(\boldsymbol\psi, \mathbf{x})
\end{align*}
$$

と変形できる。
このとき,$${\mathbf{F}}$$については,

$$
\begin{align*}
\mathbf{F}&=\mathbb{E}_{\mathbf{x}}\left[\mathbf{g}(\boldsymbol\psi(\boldsymbol\theta), \mathbf{x})\mathbf{g}(\boldsymbol\psi(\boldsymbol\theta), \mathbf{x})^{\rm T}\right]\\
&=\mathbb{E}_{\mathbf{x}}\left[\boldsymbol\Psi\mathbf{g}(\boldsymbol\psi, \mathbf{x})\mathbf{g}(\boldsymbol\psi, \mathbf{x})^{\rm T}\boldsymbol\Psi^{\rm T}\right]\\
&=\boldsymbol\Psi\mathbb{E}_{\mathbf{x}}\left[\mathbf{g}(\boldsymbol\psi, \mathbf{x})\mathbf{g}(\boldsymbol\psi, \mathbf{x})^{\rm T}\right]\boldsymbol\Psi^{\rm T}
\end{align*}
$$

となる。
以上より,$${k(\mathbf{x},\mathbf{x}')}$$は

$$
\begin{align*}
k(\mathbf{x},\mathbf{x}')&=\mathbf{g}(\boldsymbol\psi(\boldsymbol\theta), \mathbf{x})^{\rm T}\mathbf{F}^{-1}\mathbf{g}(\boldsymbol\psi(\boldsymbol\theta), \mathbf{x})\\
&=\mathbf{g}(\boldsymbol\psi, \mathbf{x})^{\rm T}\boldsymbol\Psi^{\rm T}\left(\boldsymbol\Psi^{\rm T}\right)^{-1}\left(\mathbb{E}_{\mathbf{x}}\left[\mathbf{g}(\boldsymbol\psi, \mathbf{x})\mathbf{g}(\boldsymbol\psi, \mathbf{x})^{\rm T}\right]\right)^{-1}\boldsymbol\Psi^{-1}\boldsymbol\Psi\mathbf{g}(\boldsymbol\psi, \mathbf{x})\\
&=\mathbf{g}(\boldsymbol\psi, \mathbf{x})^{\rm T}\left(\mathbb{E}_{\mathbf{x}}\left[\mathbf{g}(\boldsymbol\psi, \mathbf{x})\mathbf{g}(\boldsymbol\psi, \mathbf{x})^{\rm T}\right]\right)^{-1}\mathbf{g}(\boldsymbol\psi, \mathbf{x})
\end{align*}
$$

となり,$${\boldsymbol\theta\rightarrow\boldsymbol\psi(\boldsymbol\theta)}$$に対して不変である。



Exercise (6.14)

$$
\begin{align*}
p(\mathbf{x}|\boldsymbol\mu)&=\mathcal{N}(\mathbf{x}|\boldsymbol\mu,\mathbf{S})\\
&=\left(\frac{1}{2\pi}\right)^{M/2}\frac{1}{|\mathbf{S}|^{1/2}}\exp\left\{-\frac{1}{2}(\mathbf{x}-\boldsymbol\mu)^{\rm T}\mathbf{S}^{-1}(\mathbf{x}-\boldsymbol\mu)\right\}\\
\ln p(\mathbf{x}|\boldsymbol\mu)&=-\frac{M}{2}\ln(2\pi)-\frac{1}{2}\ln|\mathbf{S}|-\frac{1}{2}(\mathbf{x}-\boldsymbol\mu)^{\rm T}\mathbf{S}^{-1}(\mathbf{x}-\boldsymbol\mu)
\end{align*}
$$

のとき,$${\mathbf{g}(\boldsymbol\mu,\mathbf{x})}$$は

$$
\begin{align*}
\mathbf{g}(\boldsymbol\mu,\mathbf{x})&=\nabla_{\boldsymbol\mu}\ln p(\mathbf{x}|\boldsymbol\mu)\\
&=\mathbf{S}^{-1}(\mathbf{x}-\boldsymbol\mu)
\end{align*}
$$

となる。

$$
\begin{align*}
\mathbf{F}&=\mathbb{E}\left[\mathbf{g}(\boldsymbol\mu,\mathbf{x})\mathbf{g}(\boldsymbol\mu,\mathbf{x})^{\rm T}\right]\\
&=\mathbf{S}^{-1}\mathbb{E}\left[(\mathbf{x}-\boldsymbol\mu)(\mathbf{x}-\boldsymbol\mu)^{\rm T}\right]\mathbf{S}^{-1}\\
&=\mathbf{S}^{-1}\mathbf{S}\mathbf{S}^{-1}\\
&=\mathbf{S}^{-1}
\end{align*}
$$

以上より,

$$
\begin{align*}
k(\mathbf{x},\mathbf{x}')&=\mathbf{g}(\boldsymbol\mu,\mathbf{x})^{\rm T}\mathbf{F}^{-1}\mathbf{g}(\boldsymbol\mu,\mathbf{x}')\\
&=(\mathbf{x}-\boldsymbol\mu)^{\rm T}\mathbf{S}^{-1}\mathbf{S}\mathbf{S}^{-1}(\mathbf{x}'-\boldsymbol\mu)\\
&=(\mathbf{x}-\boldsymbol\mu)^{\rm T}\mathbf{S}^{-1}(\mathbf{x}'-\boldsymbol\mu)
\end{align*}
$$



Exercise (6.15)

Gram matrixの固有値を$${\lambda}$$とすると,

$$
\begin{align*}
|\mathbf{K}-\lambda\mathbf{I}|&=\left\{k(x_1,x_1)-\lambda\right\}\left\{k(x_2,x_2)-\lambda\right\}-k(x_1,x_2)^2\\
&=\lambda^2-\left\{k(x_1,x_1)+k(x_2,x_2)\right\}\lambda+\left\{k(x_1,x_1)k(x_2,x_2)-k(x_1,x_2)^2\right\}\\
&=0\\
\therefore \lambda&=\frac{1}{2}\left[\left\{k(x_1,x_1)+k(x_2,x_2)\right\}\pm\sqrt{\left\{k(x_1,x_1)+k(x_2,x_2)\right\}^2-4\left\{k(x_1,x_1)k(x_2,x_2)-k(x_1,x_2)^2\right\}}\right]
\end{align*}
$$

Gram matrixが半正定値行列のとき,固有値は非負の値となるため,

$$
\begin{align*}
k(x_1,x_1)k(x_2,x_2)-k(x_1,x_2)^2&\geq 0\\
\therefore k(x_1,x_2)^2&\leq k(x_1,x_1)k(x_2,x_2)
\end{align*}
$$



Exercise (6.16)

$${\mathbf{w}_{\perp}^{\rm T}\boldsymbol\phi(\mathbf{x}_n)=0}$$を満たす$${\mathbf{w}_{\perp}}$$を用いて,$${\mathbf{w}}$$を

$$
\begin{align*}
\mathbf{w}&=\sum_{n=1}^N\alpha_n\boldsymbol\phi(\mathbf{x}_n)+\mathbf{w}_{\perp}\\
&=\boldsymbol\Phi^{\rm T}\boldsymbol\alpha+\mathbf{w}_{\perp}
\end{align*}
$$

とする。
このとき,

$$
\begin{align*}
J(\mathbf{w})&=f\left(\mathbf{w}^{\rm T}\boldsymbol\phi(\mathbf{x}_1),\mathbf{w}^{\rm T}\boldsymbol\phi(\mathbf{x}_2),\cdots,\mathbf{w}^{\rm T}\boldsymbol\phi(\mathbf{x}_N)\right)+g\left(\mathbf{w}^{\rm T}\mathbf{w}\right)\\
&=f\left(\boldsymbol\alpha^{\rm T}\boldsymbol\Phi\boldsymbol\phi(\mathbf{x}_1),\boldsymbol\alpha^{\rm T}\boldsymbol\Phi\boldsymbol\phi(\mathbf{x}_2),\cdots,\boldsymbol\alpha^{\rm T}\boldsymbol\Phi\boldsymbol\phi(\mathbf{x}_N)\right)+g\left(\left\|\boldsymbol\Phi^{\rm T}\boldsymbol\alpha\right\|^2+\left\|\mathbf{w}_{\perp}\right\|^2\right)
\end{align*}
$$

となり,$${\mathbf{w}_{\perp}}$$は関数$${g(\cdot)}$$にのみに含まれる。
$${g(\cdot)}$$は単調増加関数のため,$${J(\mathbf{w})}$$の最小値を与える$${\mathbf{w}}$$は$${\mathbf{w}_{\perp}=\mathbf{0}}$$を満たす。
以上より,$${J(\mathbf{w})}$$の最小値を与える$${\mathbf{w}}$$は

$$
\begin{align*}
\mathbf{w}&=\sum_{n=1}^N\alpha_n\boldsymbol\phi(\mathbf{x}_n)
\end{align*}
$$

と$${\boldsymbol\phi(\mathbf{x}_n)\ ( n=1,2,\cdots,N)}$$の線形結合で表すことができる。



Exercise (6.17)

$$
\begin{align*}
E[y+\delta y]-E[y]&=\frac{1}{2}\sum_{n=1}^N\int{\rm d}\boldsymbol\xi\gamma(\boldsymbol\xi)\left\{y(\mathbf{x}_n+\boldsymbol\xi)+\delta y(\mathbf{x}_n+\boldsymbol\xi)-t_n\right\}^2-\frac{1}{2}\sum_{n=1}^N\int{\rm d}\boldsymbol\xi\gamma(\boldsymbol\xi)\left\{y(\mathbf{x}_n+\boldsymbol\xi)-t_n\right\}^2\\
&=\sum_{n=1}^N\int{\rm d}\boldsymbol\xi\gamma(\boldsymbol\xi)\left\{y(\mathbf{x}_n+\boldsymbol\xi)-t_n\right\}\delta y(\mathbf{x}_n+\boldsymbol\xi)+\mathcal{O}\left((\delta y)^2\right)\\
&=\int{\rm d}\mathbf{x}\left[\sum_{n=1}^N\gamma(\mathbf{x}-\mathbf{x}_n)\left\{y(\mathbf{x})-t_n\right\}\right]\delta y(\mathbf{x})+\mathcal{O}\left((\delta y)^2\right)\\
&=\int{\rm d}\mathbf{x}\left[y(\mathbf{x})\sum_{n=1}^N\gamma(\mathbf{x}-\mathbf{x}_n)-\sum_{n=1}^Nt_n\gamma(\mathbf{x}-\mathbf{x}_n)\right]\delta y(\mathbf{x})+\mathcal{O}\left((\delta y)^2\right)\\
\therefore y(\mathbf{x})&=\frac{\sum_{n=1}^Nt_n\gamma(\mathbf{x}-\mathbf{x}_n)}{\sum_{n=1}^N\gamma(\mathbf{x}-\mathbf{x}_n)}\\
&=\sum_{n=1}^Nt_nh(\mathbf{x}-\mathbf{x}_n)
\end{align*}
$$



Exercise (6.18)

$$
\begin{align*}
f(x,t)&=\frac{1}{2\pi\sigma^2}\exp\left(-\frac{x^2+t^2}{2\sigma^2}\right)\\
f(x-x_n,t-t_n)&=\frac{1}{2\pi\sigma^2}\exp\left\{-\frac{(x-x_n)^2+(t-t_n)^2}{2\sigma^2}\right\}\\
&=\mathcal{N}(x|x_n,\sigma^2)\mathcal{N}(t|t_n,\sigma^2)
\end{align*}
$$

のとき,

$$
\begin{align*}
g(x,x_n)&=\mathcal{N}(x|x_n,\sigma^2)\int_{-\infty}^{\infty}{\rm d}t\mathcal{N}(t|t_n,\sigma^2)\\
&=\mathcal{N}(x|x_n,\sigma^2)\\
k(x,x_n)&=\frac{\mathcal{N}(x|x_n,\sigma^2)}{\sum_m\mathcal{N}(x|x_m,\sigma^2)}
\end{align*}
$$

となる。
このとき,

$$
\begin{align*}
p(t|x)&=\frac{p(x,t)}{\int{\rm d}tp(x,t)}\\
&=\frac{\sum_nf(x-x_n,t-t_n)}{\sum_m\int{\rm d}tf(x-x_m,t-t_m)}\\
&=\frac{\sum_n\mathcal{N}(x|x_n,\sigma^2)\mathcal{N}(t|t_n,\sigma^2)}{\sum_m\mathcal{N}(x|x_m,\sigma^2)}\\
&=\sum_nk(x,x_n)\mathcal{N}(t|t_n,\sigma^2)\\
\mathbb{E}[t|x]&=\int{\rm d}ttp(t|x)\\
&=\sum_nk(x,x_n)\int{\rm d}tt\mathcal{N}(t|t_n,\sigma^2)\\
&=\sum_nt_nk(x,x_n)\\
\mathbb{E}[t^2|x]&=\int{\rm d}tt^2p(t|x)\\
&=\sum_nk(x,x_n)\int{\rm d}tt^2\mathcal{N}(t|t_n,\sigma^2)\\
&=\sum_nk(x,x_n)\int{\rm d}t(t+t_n)^2\mathcal{N}(t|0,\sigma^2)\\
&=\sum_n(\sigma^2+t_n^2)k(x,x_n)\\
{\rm var}[t|x]&=\mathbb{E}[t^2|x]-\left(\mathbb{E}[t|x]\right)^2\\
&=\sum_n(\sigma^2+t_n^2)k(x,x_n)-\left\{\sum_nt_nk(x,x_n)\right\}^2
\end{align*}
$$



Exercise (6.19)

$$
\begin{align*}
E[y+\delta y]-E[y]&=\frac{1}{2}\sum_{n=1}^N\int{\rm d}\boldsymbol\xi_n\left\{y(\mathbf{x}_n-\boldsymbol\xi_n)+\delta y(\mathbf{x}_n-\boldsymbol\xi_n)-t_n\right\}^2g(\boldsymbol\xi_n)-\frac{1}{2}\sum_{n=1}^N\int{\rm d}\boldsymbol\xi_n\left\{y(\mathbf{x}_n-\boldsymbol\xi_n)-t_n\right\}^2g(\boldsymbol\xi_n)\\
&=\sum_{n=1}^N\int{\rm d}\boldsymbol\xi_n\left\{y(\mathbf{x}_n-\boldsymbol\xi_n)-t_n\right\}g(\boldsymbol\xi_n)\delta y(\mathbf{x}_n-\boldsymbol\xi_n)+\mathcal{O}\left((\delta y)^2\right)\\
&=\sum_{n=1}^N\int{\rm d}\mathbf{z}_n\left\{y(\mathbf{z}_n)-t_n\right\}g(\mathbf{x}_n-\mathbf{z}_n)\delta y(\mathbf{z}_n)+\mathcal{O}\left((\delta y)^2\right)\\
&=\sum_{n=1}^N\int{\rm d}\mathbf{x}\left\{y(\mathbf{x})-t_n\right\}g(\mathbf{x}_n-\mathbf{x})\delta y(\mathbf{x})+\mathcal{O}\left((\delta y)^2\right)\\
&=\int{\rm d}\mathbf{x}\left[y(\mathbf{x})\sum_{n=1}^Ng(\mathbf{x}_n-\mathbf{x})-\sum_{n=1}^Ng(\mathbf{x}_n-\mathbf{x})t_n\right]\delta y(\mathbf{x})+\mathcal{O}\left((\delta y)^2\right)\\
\therefore y(\mathbf{x})&=\frac{\sum_{n=1}^Ng(\mathbf{x}_n-\mathbf{x})t_n}{\sum_{m=1}^Ng(\mathbf{x}_m-\mathbf{x})}\\
&=\sum_{n=1}k(\mathbf{x},\mathbf{x}_n)t_n\ \ \ \left(k(\mathbf{x},\mathbf{x}_n):=\frac{g(\mathbf{x}_n-\mathbf{x})t_n}{\sum_{m=1}^Ng(\mathbf{x}_m-\mathbf{x})}\right)
\end{align*}
$$



Exercise (6.20)

式(2.82)を利用することにより,

$$
\begin{align*}
\sigma^2(\mathbf{x}_{N+1})&=c-\mathbf{k}^{\rm T}\mathbf{C}_N^{-1}\mathbf{k}
\end{align*}
$$

が得られる。
また,式(2.81)を利用することにより,

$$
\begin{align*}
m(\mathbf{x}_{N+1})&=0+\mathbf{k}^{\rm T}\mathbf{C}_N^{-1}\left(\textsf{\textbf{t}}_N-\mathbf{0}\right)\\
&=\mathbf{k}^{\rm T}\mathbf{C}_N^{-1}\textsf{\textbf{t}}_N
\end{align*}
$$

が得られる。

Exercise (6.21) - (6.27)

Exercise (6.21)

$${k(\mathbf{x},\mathbf{x}')=\alpha^{-1}\boldsymbol\phi(\mathbf{x})^{\rm T}\boldsymbol\phi(\mathbf{x}')}$$のとき,

$$
\begin{align*}
c&=k(\mathbf{x}_{N+1},\mathbf{x}_{N+1})+\beta^{-1}\\
&=\alpha^{-1}\boldsymbol\phi(\mathbf{x}_{N+1})^{\rm T}\boldsymbol\phi(\mathbf{x}_{N+1})+\beta^{-1}\\
\mathbf{k}&=\alpha^{-1}\boldsymbol\Phi_N\boldsymbol\phi(\mathbf{x}_{N+1})\\
\mathbf{C}_N&=\beta^{-1}\mathbf{I}_N+\alpha^{-1}\boldsymbol\Phi_N\boldsymbol\Phi_N^{\rm T}
\end{align*}
$$

より,

$$
\begin{align*}
\sigma^2(\mathbf{x}_{N+1})&=c-\mathbf{k}^{\rm T}\mathbf{C}_N^{-1}\mathbf{k}\\
&=\alpha^{-1}\boldsymbol\phi(\mathbf{x}_{N+1})^{\rm T}\boldsymbol\phi(\mathbf{x}_{N+1})+\beta^{-1}-\alpha^{-2}\boldsymbol\phi(\mathbf{x}_{N+1})^{\rm T}\boldsymbol\Phi_N^{\rm T}\left(\beta^{-1}\mathbf{I}_N+\alpha^{-1}\boldsymbol\Phi_N\boldsymbol\Phi_N^{\rm T}\right)^{-1}\boldsymbol\Phi_N\boldsymbol\phi(\mathbf{x}_{N+1})\\
&=\beta^{-1}+\alpha^{-1}\boldsymbol\phi(\mathbf{x}_{N+1})^{\rm T}\left[\mathbf{I}_M-\alpha^{-1}\boldsymbol\Phi_N^{\rm T}\left(\beta^{-1}\mathbf{I}_N+\alpha^{-1}\boldsymbol\Phi_N\boldsymbol\Phi_N^{\rm T}\right)^{-1}\boldsymbol\Phi_N\right]\boldsymbol\phi(\mathbf{x}_{N+1})\\
&=\beta^{-1}+\alpha^{-1}\boldsymbol\phi(\mathbf{x}_{N+1})^{\rm T}\left(\mathbf{I}_M+\alpha^{-1}\boldsymbol\Phi_N^{\rm T}\beta\mathbf{I}_N\boldsymbol\Phi_N\right)^{-1}\boldsymbol\phi(\mathbf{x}_{N+1})\\
&=\beta^{-1}+\boldsymbol\phi(\mathbf{x}_{N+1})^{\rm T}\left(\alpha\mathbf{I}_M+\beta\boldsymbol\Phi_N^{\rm T}\boldsymbol\Phi_N\right)^{-1}\boldsymbol\phi(\mathbf{x}_{N+1})\\
m(\mathbf{x}_{N+1})&=\mathbf{k}^{\rm T}\mathbf{C}_N^{-1}\textsf{\textbf{t}}_N\\
&=\alpha^{-1}\boldsymbol\phi(\mathbf{x}_{N+1})^{\rm T}\boldsymbol\Phi_N^{\rm T}\left(\beta^{-1}\mathbf{I}_N+\alpha^{-1}\boldsymbol\Phi_N\boldsymbol\Phi_N^{\rm T}\right)^{-1}\textsf{\textbf{t}}_N\\
&=\alpha^{-1}\beta\boldsymbol\phi(\mathbf{x}_{N+1})^{\rm T}\boldsymbol\Phi_N^{\rm T}\left(\mathbf{I}_N+\alpha^{-1}\beta\boldsymbol\Phi_N\boldsymbol\Phi_N^{\rm T}\right)^{-1}\textsf{\textbf{t}}_N\\
&=\alpha^{-1}\beta\boldsymbol\phi(\mathbf{x}_{N+1})^{\rm T}\left(\mathbf{I}_M+\alpha^{-1}\beta\boldsymbol\Phi_N^{\rm T}\boldsymbol\Phi_N\right)^{-1}\boldsymbol\Phi_N\textsf{\textbf{t}}_N\\
&=\beta\boldsymbol\phi(\mathbf{x}_{N+1})^{\rm T}\left(\alpha\mathbf{I}_M+\beta\boldsymbol\Phi_N^{\rm T}\boldsymbol\Phi_N\right)^{-1}\boldsymbol\Phi_N^{\rm T}\textsf{\textbf{t}}_N\\
&=\left\{\beta\left(\alpha\mathbf{I}_M+\beta\boldsymbol\Phi_N^{\rm T}\boldsymbol\Phi_N\right)^{-1}\boldsymbol\Phi_N^{\rm T}\textsf{\textbf{t}}_N\right\}^{\rm T}\boldsymbol\phi(\mathbf{x}_{N+1})
\end{align*}
$$

となり,式(3.53),式(3.54),式(3.58),式(3.59)と同じ結果が得られる。



Exercise (6.22)

$$
\begin{align*}
\mathbf{C}_{N+L}&=\begin{pmatrix}\mathbf{C}_N & \mathbf{K}_{NL} \\ \mathbf{K}_{NL}^{\rm T} & \mathbf{C}_L\end{pmatrix}\\
\mathbf{K}_{NL}&=\begin{pmatrix}k(\mathbf{x}_1, \mathbf{x}_{N+1}) & k(\mathbf{x}_1, \mathbf{x}_{N+2}) & \cdots & k(\mathbf{x}_1, \mathbf{x}_{N+L}) \\ k(\mathbf{x}_2, \mathbf{x}_{N+1}) & \cdots & \cdots & k(\mathbf{x}_2, \mathbf{x}_{N+L}) \\ \vdots & \ddots & \ddots & \vdots \\ k(\mathbf{x}_N, \mathbf{x}_{N+1}) & \cdots & \cdots & k(\mathbf{x}_N, \mathbf{x}_{N+L})\end{pmatrix}\\
&=:\begin{pmatrix}\mathbf{k}_{N+1} & \mathbf{k}_{N+2} & \cdots & \mathbf{k}_{N+L}\end{pmatrix}
\end{align*}
$$

とする。
このとき,

$$
\begin{align*}
p(\textsf{\textbf{t}}_L|\textsf{\textbf{t}}_N)&=\mathcal{N}\left(\textsf{\textbf{t}}_L\left|\boldsymbol\mu_{L|N},\mathbf{C}_{L|N}\right.\right)\\
\textsf{\textbf{t}}_L&=\begin{pmatrix}t_{N+1} & t_{N+2} & \cdots & t_{N+L}\end{pmatrix}^{\rm T}\\
\boldsymbol\mu_{L|N}&=\mathbf{K}_{NL}^{\rm T}\mathbf{C}_N^{-1}\textsf{\textbf{t}}_N\\
\mathbf{C}_{L|N}&=\mathbf{C}_{L}-\mathbf{K}_{NL}^{\rm T}\mathbf{C}_N^{-1}\mathbf{K}_{NL}
\end{align*}
$$

となる。
$${\mathcal{N}\left(\textsf{\textbf{t}}_L\left|\boldsymbol\mu_{L|N},\mathbf{C}_{L|N}\right.\right)}$$の$${t_j\ (N \leq j \leq N+L-1)}$$に対する周辺化を考える。$${t_j\ (N+1 \leq j \leq N+L)}$$を$${t_{N+1}}$$と入れ替え,$${t_{N+1}}$$に関する周辺化を扱うことにする。

$$
\begin{align*}
\mathbf{C}_{L|N}^{-1}&=:\begin{pmatrix}\lambda_{N+1}&\boldsymbol\lambda_{L-1}\\\boldsymbol\lambda_{L-1}^{\rm T}&\boldsymbol\Lambda_{L-1,L-1}\end{pmatrix}\\
-\frac{1}{2}\left(\textsf{\textbf{t}}_L-\boldsymbol\mu_{L|N}\right)^{\rm T}\mathbf{C}_{L|N}^{-1}\left(\textsf{\textbf{t}}_L-\boldsymbol\mu_{L|N}\right)
&=-\frac{1}{2}\begin{pmatrix}t_{N+1}-\mu_{N+1|N} &\textsf{\textbf{t}}_{L-1}^{\rm T}-\boldsymbol\mu_{L-1|N}^{\rm T} \end{pmatrix}\begin{pmatrix}\lambda_{N+1}&\boldsymbol\lambda_{L-1}\\\boldsymbol\lambda_{L-1}^{\rm T}&\boldsymbol\Lambda_{L-1,L-1}\end{pmatrix}\begin{pmatrix}t_{N+1}-\mu_{N+1|N} \\ \textsf{\textbf{t}}_{L-1}-\boldsymbol\mu_{L-1|N}\end{pmatrix}\\
&=-\frac{1}{2}\left\{(\textsf{\textbf{t}}_{L-1}-\boldsymbol\mu_{L-1|N})^{\rm T}\boldsymbol\Lambda_{L-1,L-1}(\textsf{\textbf{t}}_{L-1}-\boldsymbol\mu_{L-1|N})+2(t_{N+1}-\mu_{N+1|N})\boldsymbol\lambda_{L-1}^{\rm T}(\textsf{\textbf{t}}_{L-1}-\boldsymbol\mu_{L-1|N})+\lambda_{N+1}(t_{N+1}-\mu_{N+1|N})^2\right\}\\
&=-\frac{1}{2}\textsf{\textbf{t}}_{L-1}^{\rm T}\boldsymbol\Lambda_{L-1,L-1}\textsf{\textbf{t}}_{L-1}+\textsf{\textbf{t}}_{L-1}^{\rm T}\left\{\boldsymbol\Lambda_{L-1,L-1}\boldsymbol\mu_{L-1|N}-(t_{N+1}-\mu_{N+1|N})\boldsymbol\lambda_{L-1}\right\}+(t_{N+1}-\mu_{N+1|N})\boldsymbol\lambda_{L-1}^{\rm T}\boldsymbol\mu_{L-1|N}-\frac{\lambda_{N+1}}{2}(t_{N+1}-\mu_{N+1|N})^2 + ({\rm other\ terms})\\
&=-\frac{1}{2}\left(\textsf{\textbf{t}}_{L-1}-\boldsymbol\Lambda_{L-1,L-1}^{-1}\mathbf{m}\right)^{\rm T}\boldsymbol\Lambda_{L-1,L-1}\left(\textsf{\textbf{t}}_{L-1}-\boldsymbol\Lambda_{L-1,L-1}^{-1}\mathbf{m}\right)+\frac{1}{2}\mathbf{m}^{\rm T}\boldsymbol\Lambda_{L-1,L-1}^{-1}\mathbf{m}+t_{N+1}\left(\boldsymbol\lambda_{L-1}^{\rm T}\boldsymbol\mu_{L-1|N}+\lambda_{N+1}\mu_{N+1|N}\right)-\frac{\lambda_{N+1}}{2}t_{N+1}^2 + ({\rm other\ terms})
\end{align*}
$$

ここで,$${\mathbf{m}:=\boldsymbol\Lambda_{L-1,L-1}\boldsymbol\mu_{L-1|N}-(t_{N+1}-\mu_{N+1|N})\boldsymbol\lambda_{L-1}}$$とした。
右辺の第1項は積分$${\int{\rm d}\textsf{\textbf{t}}_{L-1}}$$で$${t_{N+1}}$$に依存しない定数となる。また,右辺の第5項も$${t_{N+1}}$$に依存しないため,$${p(t_{N+1}|\textsf{\textbf{t}}_{N})}$$の指数を構成するのは右辺の第2~4項となる。
右辺の第2~4項をさらにまとめると,

$$
\begin{align*}
\frac{1}{2}\mathbf{m}^{\rm T}\boldsymbol\Lambda_{L-1,L-1}^{-1}\mathbf{m}+t_{N+1}\left(\boldsymbol\lambda_{L-1}^{\rm T}\boldsymbol\mu_{L-1|N}+\lambda_{N+1}\mu_{N+L|N}\right)-\frac{\lambda_{N+1}}{2}t_{N+1}^2&=\frac{1}{2}\left\{\boldsymbol\Lambda_{L-1,L-1}\boldsymbol\mu_{L-1|N}-(t_{N+1}-\mu_{N+1|N})\boldsymbol\lambda_{L-1}\right\}^{\rm T}\boldsymbol\Lambda_{L-1,L-1}^{-1}\left\{\boldsymbol\Lambda_{L-1,L-1}\boldsymbol\mu_{L-1|N}-(t_{N+1}-\mu_{N+1|N})\boldsymbol\lambda_{L-1}\right\}+t_{N+1}\left(\boldsymbol\lambda_{L-1}^{\rm T}\boldsymbol\mu_{L-1|N}+\lambda_{N+1}\mu_{N+1|N}\right)-\frac{\lambda_{N+1}}{2}t_{N+1}^2\\
&=-\frac{1}{2}\left(\lambda_{N+1}-\boldsymbol\lambda_{L-1}^{\rm T}\boldsymbol\Lambda_{L-1,L-1}^{-1}\boldsymbol\lambda_{L-1}\right)t_{N+1}^2+\mu_{N+1|N}\left(\lambda_{N+1}-\boldsymbol\lambda_{L-1}^{\rm T}\boldsymbol\Lambda_{L-1,L-1}^{-1}\boldsymbol\lambda_{L-1}\right)t_{N+1}+ ({\rm other\ terms})\\
&=:-\frac{1}{2}\frac{1}{\sigma^2}t_{N+1}^2+\frac{\mu}{\sigma^2}t_{N+1}+ ({\rm other\ terms})
\end{align*}
$$

となる。

$$
\begin{align*}
\sigma^2&=\left(\lambda_{N+1}-\boldsymbol\lambda_{L-1}^{\rm T}\boldsymbol\Lambda_{L-1,L-1}^{-1}\boldsymbol\lambda_{L-1}\right)^{-1}\\
&=\left\{\begin{pmatrix}\lambda_{N+1}&\boldsymbol\lambda_{L-1}\\\boldsymbol\lambda_{L-1}^{\rm T}&\boldsymbol\Lambda_{L-1,L-1}\end{pmatrix}^{-1}\right\}_{11}\\
&=\left(\mathbf{C}_{L|N}\right)_{11}\\
&=\left(\mathbf{C}_{L}-\mathbf{K}_{NL}^{\rm T}\mathbf{C}_N^{-1}\mathbf{K}_{NL}\right)_{11}\\
&=\left\{\beta^{-1}+k(\mathbf{x}_{N+1}, \mathbf{x}_{N+1})\right\}-\mathbf{k}_{N+1}^{\rm T}\mathbf{C}_N^{-1}\mathbf{k}_{N+1}\\
\frac{\mu}{\sigma^2}&=\mu_{N+1|N}\left(\lambda{N+1}-\boldsymbol\lambda_{L-1}^{\rm T}\boldsymbol\Lambda_{L-1,L-1}^{-1}\boldsymbol\lambda_{L-1}\right)\\
\mu&=\left(\lambda_{N+1}-\boldsymbol\lambda_{L-1}^{\rm T}\boldsymbol\Lambda_{L-1,L-1}^{-1}\boldsymbol\lambda_{L-1}\right)^{-1}\mu_{N+1|N}\left(\lambda{N+1}-\boldsymbol\lambda_{L-1}^{\rm T}\boldsymbol\Lambda_{L-1,L-1}^{-1}\boldsymbol\lambda_{L-1}\right)\\
&=\mu_{N+1|N}\\
&=\left(\mathbf{K}_{NL}^{\rm T}\mathbf{C}_N^{-1}\textsf{\textbf{t}}_N\right)_{N+1}\\
&=\mathbf{k}_{N+1}^{\rm T}\mathbf{C}_N^{-1}\textsf{\textbf{t}}_N
\end{align*}
$$

より,$${p(t_{N+1}|\textsf{\textbf{t}}_{N})}$$の期待値と分散はそれぞれ式(6.66)と式(6.67)に一致する。



Exercise (6.23)

$$
\begin{align*}
p(\mathbf{t}_n|\mathbf{y}_n)&=\mathcal{N}\left(\mathbf{t}_n\left|\mathbf{y}_n, \beta^{-1}\mathbf{I}_D\right.\right)\\
p(\{\mathbf{t}_1,\cdots,\mathbf{t}_N\}|\{\mathbf{y}_1,\cdots,\mathbf{y}_N\})&=\prod_{n=1}^{N}p(\mathbf{t}_n|\mathbf{y}_n)\\
&=\prod_{n=1}^{N}\mathcal{N}\left(\mathbf{t}_n\left|\mathbf{y}_n, \beta^{-1}\mathbf{I}_D\right.\right)\\
&=\prod_{d=1}^{D}\mathcal{N}\left(\textsf{\textbf{t}}_d\left|\textsf{\textbf{y}}_d, \beta^{-1}\mathbf{I}_N\right.\right)\\
p(\textsf{\textbf{y}}_d)&=\mathcal{N}\left(\textsf{\textbf{y}}_d\left|\mathbf{0}, \mathbf{K}\right.\right)\\
p(\{\mathbf{y}_1,\cdots,\mathbf{y}_N\})&=\prod_{d=1}^Dp(\textsf{\textbf{y}}_d)\\
&=\prod_{d=1}^D\mathcal{N}\left(\textsf{\textbf{y}}_d\left|\mathbf{0}, \mathbf{K}\right.\right)\\
\textsf{\textbf{t}}_d&=\begin{pmatrix}t_{1d}&\cdots& t_{Nd}\end{pmatrix}^{\rm T}\\
\textsf{\textbf{y}}_d&=\begin{pmatrix}y_d(\mathbf{x}_1)&\cdots& y_d(\mathbf{x}_N)\end{pmatrix}^{\rm T}\\
\mathbf{y}_n&=\mathbf{y}(\mathbf{x}_n)\\
&=\begin{pmatrix}y_1(\mathbf{x}_n)&\cdots& y_D(\mathbf{x}_n)\end{pmatrix}^{\rm T}
\end{align*}
$$

とする。
このとき,$${p(\{\mathbf{t}_1,\cdots,\mathbf{t}_N\})}$$は,

$$
\begin{align*}
p(\{\mathbf{t}_1,\cdots,\mathbf{t}_N\})&=\int{\rm d}\mathbf{y}_1\cdots\int{\rm d}\mathbf{y}_Np(\{\mathbf{t}_1,\cdots,\mathbf{t}_N\}|\{\mathbf{y}_1,\cdots,\mathbf{y}_N\})p(\{\mathbf{y}_1,\cdots,\mathbf{y}_N\})\\
&=\prod_{d=1}^D\int{\rm d}\textsf{\textbf{y}}_d\mathcal{N}\left(\left.\textsf{\textbf{t}}_d\right|\textsf{\textbf{y}}_d, \beta^{-1}\mathbf{I}_N\right)\mathcal{N}\left(\textsf{\textbf{y}}_d\left|\mathbf{0}, \mathbf{K}\right.\right)\\
&=\prod_{d=1}^D\mathcal{N}\left(\textsf{\textbf{t}}_d\left|\mathbf{0}, \beta^{-1}\mathbf{I}_N+\mathbf{K}\right.\right)\\
&=\prod_{d=1}^D\mathcal{N}\left(\textsf{\textbf{t}}_d\left|\mathbf{0}, \mathbf{C}_N\right.\right)\\
\mathbf{C}_N&:=\beta^{-1}\mathbf{I}_N+\mathbf{K}
\end{align*}
$$

となる。
$${\mathbf{t}_{N+1}}$$を加えた同時分布を

$$
\begin{align*}
p(\{\mathbf{t}_1,\mathbf{t}_2,\cdots,\mathbf{t}_{N+1}\})&=\prod_{d=1}^D\mathcal{N}\left(\left.\begin{pmatrix}\textsf{\textbf{t}}_d\\ t_{(N+1)d}\end{pmatrix}\right|\mathbf{0}, \mathbf{C}_{N+1}\right)\\
\mathbf{C}_{N+1}&=\begin{pmatrix}\mathbf{C}_N & \mathbf{k} \\ \mathbf{k}^{\rm T} & c\end{pmatrix}\\
\mathbf{k}&=\begin{pmatrix}k(\mathbf{x}_1,\mathbf{x}_{N+1}) & k(\mathbf{x}_2,\mathbf{x}_{N+1}) & \cdots & k(\mathbf{x}_N,\mathbf{x}_{N+1})\end{pmatrix}^{\rm T}\\
c&=\beta^{-1}+k(\mathbf{x}_{N+1},\mathbf{x}_{N+1})
\end{align*}
$$

とすると,$${\{\mathbf{t}_1,\mathbf{t}_2,\cdots,\mathbf{t}_{N}\}}$$が与えられた後の$${\mathbf{t}_{N+1}}$$の条件付き確率は,

$$
\begin{align*}
p(\mathbf{t}_{N+1}|\{\mathbf{t}_1,\mathbf{t}_2,\cdots,\mathbf{t}_{N}\})&=\prod_{d=1}^D\mathcal{N}\left(t_{(N+1)d}\left|\mathbf{k}^{\rm T}\mathbf{C}_{N}^{-1}\textsf{\textbf{t}}_d, c-\mathbf{k}^{\rm T}\mathbf{C}_{N}^{-1}\mathbf{k}\right.\right)\\
&=\mathcal{N}\left(\mathbf{t}_{N+1}\left|\mathbf{T}_N\mathbf{C}_N^{-1}\mathbf{k}, \left(c-\mathbf{k}^{\rm T}\mathbf{C}_{N}^{-1}\mathbf{k}\right)\mathbf{I}_D\right.\right)\\
\mathbf{T}_N&:=\begin{pmatrix}\mathbf{t}_1&\mathbf{t}_2&\cdots&\mathbf{t}_N\end{pmatrix}
\end{align*}
$$

となる。



Exercise (6.24)

対角行列$${\mathbf{W}}$$の成分が$${0 < W_{ii} <1}$$を満たすとき,任意のベクトル$${\mathbf{u}}$$に対して,

$$
\begin{align*}
\mathbf{u}^{\rm T}\mathbf{W}\mathbf{u}
&=\sum_{i}W_{ii}u_i^2\\
&> 0
\end{align*}
$$

が成立するため,$${\mathbf{W}}$$は正定値行列である。


2つの正定値対称行列を$${\mathbf{W}_1, \mathbf{W}_2}$$とすると,

$$
\begin{align*}
\left(\mathbf{W}_1\mathbf{W}_2\right)^{\rm T}&=\mathbf{W}_2^{\rm T}\mathbf{W}_1^{\rm T}\\
&=\mathbf{W}_2\mathbf{W}_1
\end{align*}
$$

と交換可能であるため,$${\mathbf{W}_1, \mathbf{W}_2}$$は同時対角化できる。
$${\mathbf{W}_1, \mathbf{W}_2}$$の固有ベクトルを$${\{\mathbf{u}_i\}}$$,固有値をそれぞれ$${\{\lambda_i\}, \{\lambda_i'\}}$$とおくと,

$$
\begin{align*}
\mathbf{W}_1\mathbf{W}_2&=\sum_{i}\sum_{j}\lambda_i\lambda_j'\mathbf{u}_i\mathbf{u}_i^{\rm T}\mathbf{u}_j\mathbf{u}_j^{\rm T}\\
&=\sum_{i}\sum_{j}\lambda_i\lambda_j'\delta_{ij}\mathbf{u}_i\mathbf{u}_j^{\rm T}\\
&=\sum_{i}\lambda_i\lambda_i'\mathbf{u}_i\mathbf{u}_i^{\rm T}
\end{align*}
$$

となり,$${\mathbf{W}_1\mathbf{W}_2}$$の固有値は$${\lambda_i\lambda_i'>0}$$を満たす。
以上より,$${\mathbf{W}_1\mathbf{W}_2}$$は正定値行列となる。



Exercise (6.25)

$$
\begin{align*}
\mathbf{a}_N^{\rm new}&=\mathbf{a}_N-\left(\nabla\nabla\Psi\right)^{-1}\nabla\Psi\\
&=\mathbf{a}_N+\left(\mathbf{W}_N+\mathbf{C}_N^{-1}\right)^{-1}\nabla\Psi\\
&=\mathbf{a}_N+\left\{\mathbf{C}_N-\mathbf{C}_N\left(\mathbf{I}_N+\mathbf{W}_N\mathbf{C}_N\right)^{-1}\mathbf{W}_N\mathbf{C}_N\right\}\left(\textsf{\textbf{t}}_N-\boldsymbol\sigma_N-\mathbf{C}_N^{-1}\mathbf{a}_N\right)\\
&=\left\{\mathbf{C}_N-\mathbf{C}_N\left(\mathbf{I}_N+\mathbf{W}_N\mathbf{C}_N\right)^{-1}\mathbf{W}_N\mathbf{C}_N\right\}\left(\textsf{\textbf{t}}_N-\boldsymbol\sigma_N\right)+\mathbf{C}_N\left(\mathbf{I}_N+\mathbf{W}_N\mathbf{C}_N\right)^{-1}\mathbf{W}_N\mathbf{a}_N\\
&=\left\{\mathbf{C}_N-\mathbf{C}_N\left(\mathbf{I}_N+\mathbf{W}_N\mathbf{C}_N\right)^{-1}\left(\mathbf{I}_N+\mathbf{W}_N\mathbf{C}_N-\mathbf{I}_N\right)\right\}\left(\textsf{\textbf{t}}_N-\boldsymbol\sigma_N\right)+\mathbf{C}_N\left(\mathbf{I}_N+\mathbf{W}_N\mathbf{C}_N\right)^{-1}\mathbf{W}_N\mathbf{a}_N\\
&=\mathbf{C}_N\left(\mathbf{I}_N+\mathbf{W}_N\mathbf{C}_N\right)^{-1}\left(\textsf{\textbf{t}}_N-\boldsymbol\sigma_N\right)+\mathbf{C}_N\left(\mathbf{I}_N+\mathbf{W}_N\mathbf{C}_N\right)^{-1}\mathbf{W}_N\mathbf{a}_N\\
&=\mathbf{C}_N\left(\mathbf{I}_N+\mathbf{W}_N\mathbf{C}_N\right)^{-1}\left(\textsf{\textbf{t}}_N-\boldsymbol\sigma_N+\mathbf{W}_N\mathbf{a}_N\right)
\end{align*}
$$



Exercise (6.26)

$$
\begin{align*}
p(\mathbf{a}_N|\textsf{\textbf{t}}_N)&\simeq q(\mathbf{a}_N)\\
&=\mathcal{N}\left(\mathbf{a}_N\left|\mathbf{C}_N(\textsf{\textbf{t}}_N-\boldsymbol\sigma_N),\left(\mathbf{W}_N+\mathbf{C}_N^{-1}\right)^{-1}\right.\right)\\
p(a_{N+1}|\mathbf{a}_N)&=\mathcal{N}\left(a_{N+1}\left|\mathbf
{k}^{\rm T}\mathbf{C}_N^{-1}\mathbf{a}_N,c-\mathbf
{k}^{\rm T}\mathbf{C}_N^{-1}\mathbf
{k}\right.\right)
\end{align*}
$$

のとき,式(2.115)の結果を用いると,

$$
\begin{align*}
\mathbb{E}[a_{N+1}|\textsf{\textbf{t}}_N]&=\mathbf
{k}^{\rm T}\mathbf{C}_N^{-1}\mathbf{C}_N(\textsf{\textbf{t}}_N-\boldsymbol\sigma_N)\\
&=\mathbf
{k}^{\rm T}(\textsf{\textbf{t}}_N-\boldsymbol\sigma_N)\\
{\rm var}[a_{N+1}|\textsf{\textbf{t}}_N]&=c-\mathbf
{k}^{\rm T}\mathbf{C}_N^{-1}\mathbf
{k}+\mathbf
{k}^{\rm T}\mathbf{C}_N^{-1}\left(\mathbf{W}_N+\mathbf{C}_N^{-1}\right)^{-1}\mathbf{C}_N^{-1}\mathbf{k}\\
&=c-\mathbf{k}^{\rm T}\left\{\mathbf{C}_N^{-1}-\mathbf{C}_N^{-1}\left(\mathbf{W}_N+\mathbf{C}_N^{-1}\right)^{-1}\mathbf{C}_N^{-1}\right\}\mathbf{k}\\
&=c-\mathbf{k}^{\rm T}\mathbf{k}\left(\mathbf{W}_N^{-1}+\mathbf{C}_N\right)^{-1}{k}^{\rm T}
\end{align*}
$$

が得られる。



Exercise (6.27)

$$
\begin{align*}
p(\textsf{\textbf{t}}_N|\boldsymbol\theta)&=\int{\rm d}\mathbf{a}_Np(\textsf{\textbf{t}}_N|\mathbf{a}_N)p(\mathbf{a}_N|\boldsymbol\theta)\\
&=\int{\rm d}\mathbf{a}_N\exp\left\{\Psi(\mathbf{a}_N)\right\}\\
&\simeq\exp\left\{\Psi(\mathbf{a}_N^*)\right\}\int{\rm d}\mathbf{a}_N\left\{-\frac{1}{2}(\mathbf{a}_N-\mathbf{a}_N^*)^{\rm T}\left(\mathbf{W}_N+\mathbf{C}_N^{-1}\right)(\mathbf{a}_N-\mathbf{a}_N^*)\right\}\\
&=\exp\left\{\Psi(\mathbf{a}_N^*)\right\}\frac{(2\pi)^{N/2}}{\left|\mathbf{W}_N+\mathbf{C}_N^{-1}\right|}\\
\therefore \ln p(\textsf{\textbf{t}}_N|\boldsymbol\theta)&\simeq \Psi(\mathbf{a}_N^*) -\ln\left|\mathbf{W}_N+\mathbf{C}_N^{-1}\right|+\frac{N}{2}\ln(2\pi)
\end{align*}
$$


$$
\begin{align*}
\frac{\partial\Psi(\mathbf{a}_N^*)}{\partial \theta_j}&=-\frac{1}{2}\mathbf{a}_N^{*{\rm T}}\frac{\partial\mathbf{C}_N^{-1}}{\partial \theta_j}\mathbf{a}_N^{*}-\frac{1}{2}\frac{\partial}{\partial \theta_j}\ln|\mathbf{C}_N|\\
&=\frac{1}{2}\mathbf{a}_N^{*{\rm T}}\mathbf{C}_N^{-1}\frac{\partial\mathbf{C}_N}{\partial \theta_j}\mathbf{C}_N^{-1}\mathbf{a}_N^{*}-\frac{1}{2}{\rm Tr}\left(\mathbf{C}_N^{-1}\frac{\partial\mathbf{C}_N}{\partial \theta_j}\right)\\
\frac{\partial}{\partial \theta_j}\ln\left|\mathbf{W}_N+\mathbf{C}_N^{-1}\right|^{-1}&={\rm Tr}\left[\left(\mathbf{W}_N+\mathbf{C}_N^{-1}\right)^{-1}\left\{\frac{\partial}{\partial \theta_j}\left(\mathbf{W}_N+\mathbf{C}_N^{-1}\right)\right\}\right]\\
&=-{\rm Tr}\left]\left(\mathbf{W}_N+\mathbf{C}_N^{-1}\right)^{-1}\mathbf{C}_N^{-1}\left\{\frac{\partial}{\partial \theta_j}\left(\mathbf{W}_N+\mathbf{C}_N\right)\right\}\mathbf{C}_N^{-1}\right]\\
&=-{\rm Tr}\left(\mathbf{C}_N^{-1}\left(\mathbf{W}_N+\mathbf{C}_N^{-1}\right)^{-1}\mathbf{C}_N^{-1}\frac{\partial \mathbf{C}_N}{\partial \theta_j}\right)
\end{align*}
$$

より,

$$
\begin{align*}
\frac{\partial}{\partial \theta_j} \ln p(\textsf{\textbf{t}}_N|\boldsymbol\theta)&=\frac{\partial\Psi(\mathbf{a}_N^*)}{\partial \theta_j}-\frac{1}{2}\frac{\partial}{\partial \theta_j}\ln\left|\mathbf{W}_N+\mathbf{C}_N^{-1}\right|^{-1}\\
&=\frac{1}{2}\mathbf{a}_N^{*{\rm T}}\mathbf{C}_N^{-1}\frac{\partial\mathbf{C}_N}{\partial \theta_j}\mathbf{C}_N^{-1}\mathbf{a}_N^{*}-\frac{1}{2}{\rm Tr}\left[\left\{\mathbf{C}_N^{-1}-\mathbf{C}_N^{-1}\left(\mathbf{W}_N+\mathbf{C}_N^{-1}\right)^{-1}\mathbf{C}_N^{-1}\right\}\frac{\partial\mathbf{C}_N}{\partial \theta_j}\right]\\
&=\frac{1}{2}\mathbf{a}_N^{*{\rm T}}\mathbf{C}_N^{-1}\frac{\partial\mathbf{C}_N}{\partial \theta_j}\mathbf{C}_N^{-1}\mathbf{a}_N^{*}-\frac{1}{2}{\rm Tr}\left\{\left(\mathbf{C}_N+\mathbf{W}_N^{-1}\right)^{-1}\frac{\partial\mathbf{C}_N}{\partial \theta_j}\right\}\\
&=\frac{1}{2}\mathbf{a}_N^{*{\rm T}}\mathbf{C}_N^{-1}\frac{\partial\mathbf{C}_N}{\partial \theta_j}\mathbf{C}_N^{-1}\mathbf{a}_N^{*}-\frac{1}{2}{\rm Tr}\left\{\left(\mathbf{I}_N+\mathbf{W}_N\mathbf{C}_N\right)^{-1}\mathbf{W}_N\frac{\partial\mathbf{C}_N}{\partial \theta_j}\right\}\\
&=\frac{1}{2}\mathbf{a}_N^{*{\rm T}}\mathbf{C}_N^{-1}\frac{\partial\mathbf{C}_N}{\partial \theta_j}\mathbf{C}_N^{-1}\mathbf{a}_N^{*}-\frac{1}{2}{\rm Tr}\left\{\left(\mathbf{I}_N+\mathbf{C}_N\mathbf{W}_N\right)^{-1}\mathbf{W}_N\frac{\partial\mathbf{C}_N}{\partial \theta_j}\right\}
\end{align*}
$$


$$
\begin{align*}
\frac{\partial \mathbf{a}_N^*}{\partial \theta_j}&=\frac{\partial}{\partial \theta_j}\left\{\mathbf{C}_N(\textsf{\textbf{t}}_N-\boldsymbol\sigma_N^*)\right\}\\
&=\frac{\partial \mathbf{C}_N}{\partial \theta_j}(\textsf{\textbf{t}}_N-\boldsymbol\sigma_N^*)-\mathbf{C}_N\frac{\partial \boldsymbol\sigma_N^*}{\partial \theta_j}\\
&=\frac{\partial \mathbf{C}_N}{\partial \theta_j}(\textsf{\textbf{t}}_N-\boldsymbol\sigma_N^*)-\mathbf{C}_N\begin{pmatrix}\vdots \\ \frac{\partial \sigma_n^*}{\partial \theta_j}\\ \vdots\end{pmatrix}\\
&=\frac{\partial \mathbf{C}_N}{\partial \theta_j}(\textsf{\textbf{t}}_N-\boldsymbol\sigma_N^*)-\mathbf{C}_N\begin{pmatrix}\vdots \\ \frac{\partial \sigma_n^*}{\partial a_n^*}\frac{\partial a_n^*}{\partial \theta_j}\\ \vdots\end{pmatrix}\\
&=\frac{\partial \mathbf{C}_N}{\partial \theta_j}(\textsf{\textbf{t}}_N-\boldsymbol\sigma_N^*)-\mathbf{C}_N\begin{pmatrix}\vdots \\ \sigma_n^*(1-\sigma_n^*)\frac{\partial a_n^*}{\partial \theta_j}\\ \vdots\end{pmatrix}\\
&=\frac{\partial \mathbf{C}_N}{\partial \theta_j}(\textsf{\textbf{t}}_N-\boldsymbol\sigma_N^*)-\mathbf{C}_N\mathbf{W}_N\frac{\partial \mathbf{a}_N^*}{\partial \theta_j}\\
\therefore \frac{\partial \mathbf{a}_N^*}{\partial \theta_j}&=\left(\mathbf{I}_N+\mathbf{C}_N\mathbf{W}_N\right)^{-1}\frac{\partial \mathbf{C}_N}{\partial \theta_j}(\textsf{\textbf{t}}_N-\boldsymbol\sigma_N^*)\\
&=\left(\mathbf{I}_N+\mathbf{W}_N\mathbf{C}_N\right)^{-1}\frac{\partial \mathbf{C}_N}{\partial \theta_j}(\textsf{\textbf{t}}_N-\boldsymbol\sigma_N^*)
\end{align*}
$$

参考文献

  1. Christopher Bishop, Pattern Recognition and Machine Learning


この記事が気に入ったらサポートをしてみませんか?