PRML自習ノート - chapter 12 -
Exercise (12.1) - (12.10)
Exercise (12.1)
$$
\begin{align*}
f(\mathbf{u}_{M+1})&=\mathbf{u}_{M+1}^{\rm T}\mathbf{S}\mathbf{u}_{M+1}+\lambda_{M+1}'\left(1-\mathbf{u}_{M+1}^{\rm T}\mathbf{u}_{M+1}\right)+\mathbf{u}_{M+1}^{\rm T}\sum_{i=1}^M\lambda_i'\mathbf{u}_{i}
\end{align*}
$$
の$${\mathbf{u}_{M+1}}$$に関する極値を求めると,
$$
\begin{align*}
\nabla_{\mathbf{u}_{M+1}}f(\mathbf{u}_{M+1})&=2\mathbf{S}\mathbf{u}_{M+1}-2\lambda_{M+1}'\mathbf{u}_{M+1}+\sum_{i=1}^M\lambda_i'\mathbf{u}_{i}\\
&=0\\
\therefore \mathbf{S}\mathbf{u}_{M+1}&=\lambda_{M+1}'\mathbf{u}_{M+1}-\frac{1}{2}\sum_{i=1}^M\lambda_i'\mathbf{u}_{i}
\end{align*}
$$
両辺に$${\mathbf{u}_i^{\rm T}}$$を左からかけると,
$$
\begin{align*}
\mathbf{u}_i^{\rm T}\mathbf{S}\mathbf{u}_{M+1}&=\lambda_{M+1}'\mathbf{u}_i^{\rm T}\mathbf{u}_{M+1}-\frac{1}{2}\sum_{j=1}^M\lambda_j'\mathbf{u}_i^{\rm T}\mathbf{u}_{j}\\
\lambda_i\mathbf{u}_i^{\rm T}\mathbf{u}_{M+1}&=\lambda_{M+1}'\mathbf{u}_i^{\rm T}\mathbf{u}_{M+1}-\frac{1}{2}\sum_{j=1}^M\lambda_j'\mathbf{u}_i^{\rm T}\mathbf{u}_{j}\\
0&=0-\frac{1}{2}\sum_{j=1}^M\lambda_j'\delta_{ij}\\
&=\lambda_i'\\
\therefore \lambda_i'&=0\ \ \ (i=1,2,\cdots,M)
\end{align*}
$$
つまり,
$$
\begin{align*}
\mathbf{S}\mathbf{u}_{M+1}&=\lambda_{M+1}'\mathbf{u}_{M+1}
\end{align*}
$$
となり,$${\mathbf{u}_{M+1}}$$は$${\mathbf{S}}$$の固有ベクトルであることが示された。
$${M+1}$$番目に固有値が大きい$${\mathbf{S}}$$の固有ベクトルを$${\mathbf{u}_{M+1}}$$に選ぶことにより,$${\mathbf{u}_{M+1}^{\rm T}\mathbf{S}\mathbf{u}_{M+1}}$$が最大化される。
Exercise (12.2)
$$
\begin{align*}
\frac{\partial\widetilde{J}}{\partial\widehat{\mathbf{U}}}&=\frac{\partial}{\partial\widehat{\mathbf{U}}}\left({\rm Tr}\left\{\widehat{\mathbf{U}}^{\rm T}\mathbf{S}\widehat{\mathbf{U}}\right\}+{\rm Tr}\left\{\mathbf{H}\left(\mathbf{I}-\widehat{\mathbf{U}}^{\rm T}\widehat{\mathbf{U}}\right)\right\}\right)\\
&=\left(\frac{\partial}{\partial\widehat{\mathbf{U}}^{\rm T}}{\rm Tr}\left\{\widehat{\mathbf{U}}^{\rm T}\mathbf{S}\widehat{\mathbf{U}}\right\}\right)^{\rm T}-\frac{\partial}{\partial\widehat{\mathbf{U}}}{\rm Tr}\left\{\widehat{\mathbf{U}}\mathbf{H}\widehat{\mathbf{U}}^{\rm T}\right\}\\
&=\left(\widehat{\mathbf{U}}^{\rm T}\left(\mathbf{S}+\mathbf{S}^{\rm T}\right)\right)^{\rm T}-\widehat{\mathbf{U}}\left(\mathbf{H}+\mathbf{H}^{\rm T}\right)\\
&=2\mathbf{S}\widehat{\mathbf{U}}-\widehat{\mathbf{U}}\left(\mathbf{H}+\mathbf{H}^{\rm T}\right)\\
&=\mathbf{0}\\
\therefore \mathbf{S}\widehat{\mathbf{U}}&=\widehat{\mathbf{U}}\frac{1}{2}\left(\mathbf{H}+\mathbf{H}^{\rm T}\right)
\end{align*}
$$
$${\frac{1}{2}\left(\mathbf{H}+\mathbf{H}^{\rm T}\right)}$$は$${\mathbf{H}}$$を対称行列と反対称行列に分解した際の対称行列に相当する。
$${\widehat{\mathbf{U}}}$$を決める際に対称行列しか寄与しないため,はじめから$${\mathbf{H}}$$が対称行列であると仮定しても問題ない。
以上より,$${\mathbf{S}\widehat{\mathbf{U}}=\widehat{\mathbf{U}}\mathbf{H}}$$が得られる。
$${\mathbf{S}\widehat{\mathbf{U}}=\widehat{\mathbf{U}}\mathbf{H}, \widehat{\mathbf{U}}^{\rm T}\widehat{\mathbf{U}}=\mathbf{I}}$$のとき,
$$
\begin{align*}
\widetilde{J}&={\rm Tr}\left\{\widehat{\mathbf{U}}^{\rm T}\mathbf{S}\widehat{\mathbf{U}}\right\}\\
&={\rm Tr}\left\{\widehat{\mathbf{U}}^{\rm T}\widehat{\mathbf{U}}\mathbf{H}\right\}\\
&={\rm Tr}\left\{\mathbf{H}\right\}\\
\end{align*}
$$
より,$${\widetilde{J}}$$には$${\mathbf{H}}$$の対角項のみ寄与するため,$${\mathbf{H}}$$を対角化行列に選ぶことができる。
$${\mathbf{H}={\rm diag}\{\lambda_{i}\}}$$とすると,
$$
\begin{align*}
\widehat{\mathbf{U}}\mathbf{H}&=\begin{pmatrix}\lambda_1\mathbf{u}_{D-M+1}&\cdots&\lambda_M\mathbf{u}_{D}\end{pmatrix}\\
&=\begin{pmatrix}\mathbf{S}\mathbf{u}_{D-M+1}&\cdots&\mathbf{S}\mathbf{u}_{D}\end{pmatrix}
\end{align*}
$$
となり,$${\{\mathbf{u}_{i}\}, \{\lambda_{i}\}}$$はそれぞれ$${\mathbf{S}}$$の固有ベクトル,固有値に対応する。
Exercise (12.3)
$$
\begin{align*}
\mathbf{u}^{\rm T}\mathbf{u}&=\frac{1}{\lambda_i}\mathbf{v}_i^{\rm T}\left(\frac{1}{N}\mathbf{X}\mathbf{X}^{\rm T}\right)\mathbf{v}_i\\
&=\mathbf{v}_i^{\rm T}\mathbf{v}_i\\
&=1
\end{align*}
$$
Exercise (12.4)
式(2.115)の関係式を利用すると,
$$
\begin{align*}
p(\mathbf{x})&=\int{\rm d}p(\mathbf{z})p(\mathbf{x}|\mathbf{z})\\
&=\int{\rm d}\mathcal{N}(\mathbf{z}|\mathbf{m},\boldsymbol\Sigma)\mathcal{N}(\mathbf{x}|\mathbf{W}\mathbf{z}+\boldsymbol\mu,\sigma^2\mathbf{I})\\
&=\mathcal{N}(\mathbf{x}|\mathbf{W}\mathbf{m}+\boldsymbol\mu,\sigma^2\mathbf{I}+\mathbf{W}^{\rm T}\boldsymbol\Sigma\mathbf{W})
\end{align*}
$$
が得られる。
$${\mathbf{W}\mathbf{m}+\boldsymbol\mu\rightarrow\boldsymbol\mu, \boldsymbol\Sigma^{1/2}\mathbf{W}\rightarrow\mathbf{W}}$$と再定義することにより,式(12.35), (12.36)と同じ式となる。
Exercise (12.5)
$${\mathbf{A}^{\dagger}:=(\mathbf{A}^{\rm T}\mathbf{A})^{-1}\mathbf{A}^{\rm T}}$$とおくと,$${\mathbf{x}=\mathbf{A}^{\dagger}(\mathbf{y}-\mathbf{b})}$$より,
$$
\begin{align*}
\mathcal{N}(\mathbf{x}|\boldsymbol\mu,\boldsymbol\Sigma)
&\propto\exp\left(-\frac{1}{2}(\mathbf{x}-\boldsymbol\mu)^{\rm T}\boldsymbol\Sigma^{-1}(\mathbf{x}-\boldsymbol\mu)\right)\\
&=\exp\left(-\frac{1}{2}(\mathbf{A}^{\dagger}(\mathbf{y}-\mathbf{b})-\boldsymbol\mu)^{\rm T}\boldsymbol\Sigma^{-1}(\mathbf{A}^{\dagger}(\mathbf{y}-\mathbf{b})-\boldsymbol\mu)\right)\\
&=\exp\left(-\frac{1}{2}(\mathbf{A}^{\dagger}(\mathbf{y}-(\mathbf{A}\boldsymbol\mu+\mathbf{b})))^{\rm T}\boldsymbol\Sigma^{-1}(\mathbf{A}^{\dagger}(\mathbf{y}-(\mathbf{A}\boldsymbol\mu+\mathbf{b})))\right)\\
&=\exp\left(-\frac{1}{2}(\mathbf{y}-(\mathbf{A}\boldsymbol\mu+\mathbf{b}))^{\rm T}(\mathbf{A}^{\dagger})^{\rm T}\boldsymbol\Sigma^{-1}\mathbf{A}^{\dagger}(\mathbf{y}-(\mathbf{A}\boldsymbol\mu+\mathbf{b}))\right)\\
&\propto\mathcal{N}\left(\mathbf{y}\left|\mathbf{A}\boldsymbol\mu+\mathbf{b},\left((\mathbf{A}^{\dagger})^{\rm T}\boldsymbol\Sigma^{-1}\mathbf{A}^{\dagger}\right)^{-1}\right.\right)
\end{align*}
$$
が得られる。
これより,$${\mathbf{y}}$$もガウス分布に従う。
平均値と共分散は,
$$
\begin{align*}
\mathbb{E}[\mathbf{y}]&=\mathbf{A}\boldsymbol\mu+\mathbf{b}\\
{\rm cov}[\mathbf{y}]&=\left((\mathbf{A}^{\dagger})^{\rm T}\boldsymbol\Sigma^{-1}\mathbf{A}^{\dagger}\right)^{-1}\\
\end{align*}
$$
$${D=M}$$のとき,$${\mathbf{A}^{\dagger}=\mathbf{A}^{-1}}$$より,$${{\rm cov}[\mathbf{y}]=\mathbf{A}\boldsymbol\Sigma\mathbf{A}^{\rm T}}$$となる。
Exercise (12.6)
Exercise (12.7)
$$
\begin{align*}
\mathbb{E}_{\mathbf{x}}[\mathbf{x}|\mathbf{z}]&=\mathbf{W}\mathbf{z}+\boldsymbol\mu\\
\mathbb{E}_{\mathbf{z}}[\mathbf{z}]&=\mathbf{0}\\
\mathbb{E}_{\mathbf{x}}[\mathbf{x}\mathbf{x}^{\rm T}|\mathbf{z}]&=(\mathbf{W}\mathbf{z}+\boldsymbol\mu)\mathbf{W}\mathbf{z}+\boldsymbol\mu^{\rm T}+\sigma^2\mathbf{I}\\
&=\mathbf{W}\mathbf{z}\mathbf{z}^{\rm T}\mathbf{W}^{\rm T}+2\boldsymbol\mu^{\rm T}\mathbf{W}\mathbf{z}+\boldsymbol\mu\boldsymbol\mu^{\rm T}+\sigma^2\mathbf{I}\\
\mathbb{E}_{\mathbf{z}}[\mathbf{z}\mathbf{z}^{\rm T}]&=\mathbf{I}\\
\end{align*}
$$
より,
$$
\begin{align*}
\mathbb{E}[\mathbf{x}]&=\mathbb{E}_{\mathbf{z}}\left[\mathbb{E}_{\mathbf{x}}[\mathbf{x}|\mathbf{z}]\right]\\
&=\mathbb{E}_{\mathbf{z}}\left[\mathbf{W}\mathbf{z}+\boldsymbol\mu\right]\\
&=\mathbf{W}\mathbb{E}_{\mathbf{z}}\left[\mathbf{z}\right]+\boldsymbol\mu\\
&=\boldsymbol\mu\\
{\rm cov}[\mathbf{x}]&=\mathbb{E}[\mathbf{x}\mathbf{x}^{\rm T}]-\mathbb{E}[\mathbf{x}]\mathbb{E}[\mathbf{x}^{\rm T}]\\
&=\mathbb{E}_{\mathbf{z}}\left[[\mathbb{E}_{\mathbf{x}}[\mathbf{x}\mathbf{x}^{\rm T}|\mathbf{z}]\right]-\boldsymbol\mu\boldsymbol\mu^{\rm T}\\
&=\mathbb{E}_{\mathbf{z}}\left[\mathbf{W}\mathbf{z}\mathbf{z}^{\rm T}\mathbf{W}^{\rm T}+2\boldsymbol\mu^{\rm T}\mathbf{W}\mathbf{z}+\boldsymbol\mu\boldsymbol\mu^{\rm T}+\sigma^2\mathbf{I}\right]-\boldsymbol\mu\boldsymbol\mu^{\rm T}\\
&=\mathbf{W}\mathbb{E}_{\mathbf{z}}\left[\mathbf{z}\mathbf{z}^{\rm T}\right]\mathbf{W}^{\rm T}+2\boldsymbol\mu^{\rm T}\mathbf{W}\mathbb{E}_{\mathbf{z}}\left[\mathbf{z}\right]+\sigma^2\mathbf{I}\\
&=\mathbf{W}\mathbf{W}^{\rm T}+\sigma^2\mathbf{I}\\
\end{align*}
$$
Exercise (12.8)
式(2.116)を用いると,
$$
\begin{align*}
p(\mathbf{z}|\mathbf{x})&=\mathcal{N}\left(\mathbf{z}\left|\left(\mathbf{I}+\sigma^{-2}\mathbf{W}^{\rm T}\mathbf{W}\right)^{-1}\mathbf{W}^{\rm T}\sigma^{-2}\mathbf{I}(\mathbf{x}-\boldsymbol\mu),\left(\mathbf{I}+\sigma^{-2}\mathbf{W}^{\rm T}\mathbf{W}\right)^{-1}\right.\right)\\
&=\mathcal{N}\left(\mathbf{z}\left|\left(\sigma^{2}\mathbf{I}+\mathbf{W}^{\rm T}\mathbf{W}\right)^{-1}\mathbf{W}^{\rm T}(\mathbf{x}-\boldsymbol\mu),\sigma^{2}\left(\sigma^{2}\mathbf{I}+\mathbf{W}^{\rm T}\mathbf{W}\right)^{-1}\right.\right)\\
&=\mathcal{N}\left(\mathbf{z}\left|\mathbf{M}^{-1}\mathbf{W}^{\rm T}(\mathbf{x}-\boldsymbol\mu),\sigma^{2}\mathbf{M}^{-1}\right.\right)\\
\end{align*}
$$
Exercise (12.9)
$$
\begin{align*}
\frac{\partial}{\partial\boldsymbol\mu}\ln p(\mathbf{X}|\boldsymbol\mu,\mathbf{W},\sigma^2)&=\sum_{n=1}^N\mathbf{C}^{-1}(\mathbf{x}_n-\boldsymbol\mu)\\
&=\mathbf{C}^{-1}\left(\sum_{n=1}^N\mathbf{x}_n-N\boldsymbol\mu\right)\\
&=N\mathbf{C}^{-1}\left(\bar{\mathbf{x}}-\boldsymbol\mu\right)\\
&=\mathbf{0}\\
\therefore \boldsymbol\mu_{\rm ML}&=\bar{\mathbf{x}}
\end{align*}
$$
Exercise (12.10)
$$
\begin{align*}
\frac{\partial^2}{\partial\boldsymbol\mu\partial\boldsymbol\mu^{\rm T}}\ln p(\mathbf{X}|\boldsymbol\mu,\mathbf{W},\sigma^2)&=\frac{\partial}{\partial\boldsymbol\mu^{\rm T}}N\mathbf{C}^{-1}\left(\bar{\mathbf{x}}-\boldsymbol\mu\right)\\
&=-N\mathbf{C}^{-1}\\
\end{align*}
$$
任意のベクトル$${\mathbf{u}}$$に対して,
$$
\begin{align*}
\mathbf{u}^{\rm T}\mathbf{C}\mathbf{u}&=\left\|\mathbf{W}^{\rm T}\mathbf{u}\right\|^2+\sigma^2\left\|\mathbf{u}\right\|^2\\
&>0
\end{align*}
$$
となるため,$${\mathbf{C}}$$及び$${\mathbf{C}^{-1}}$$は正定値行列である。
任意の$${\boldsymbol\mu}$$に対してヘッセ行列は負値となるため,最大値は1つしかない。
Exercise (12.11) - (12.20)
Exercise (12.11)
$${\sigma^2\rightarrow 0}$$のとき,$${\mathbf{W}_{\rm ML}=\mathbf{U}_M\mathbf{L}_M^{1/2}}$$となるため,
$$
\begin{align*}
\left(\mathbf{W}_{\rm ML}^{\rm T}\mathbf{W}_{\rm ML}\right)^{-1}\mathbf{W}_{\rm ML}^{\rm T}(\mathbf{x}-\overline{\mathbf{x}})
&=\left(\mathbf{L}_M^{1/2}\mathbf{U}_M^{\rm T}\mathbf{U}_M\mathbf{L}_M^{1/2}\right)^{-1}\mathbf{L}_M^{1/2}\mathbf{U}_M^{\rm T}(\mathbf{x}-\overline{\mathbf{x}})\\
&=\mathbf{L}_M^{-1}\mathbf{L}_M^{1/2}\mathbf{U}_M^{\rm T}(\mathbf{x}-\overline{\mathbf{x}})\\
&=\mathbf{L}_M^{-1/2}\mathbf{U}_M^{\rm T}(\mathbf{x}-\overline{\mathbf{x}})\\
\end{align*}
$$
が得られる。
これは,式(12.24)を$${M}$$個の固有ベクトル,固有値で定義した場合に相当する。
Exercise (12.12)
$${\sigma^2> 0}$$のとき
$$
\begin{align*}
\left(\mathbf{W}_{\rm ML}^{\rm T}\mathbf{W}_{\rm ML}\right)^{-1}\mathbf{W}_{\rm ML}^{\rm T}(\mathbf{x}-\overline{\mathbf{x}})
&=(\mathbf{L}_M-\sigma^2\mathbf{I})^{-1/2}\mathbf{U}_M^{\rm T}(\mathbf{x}-\overline{\mathbf{x}})\\
&=\left\{{\rm diag}(\{\lambda_i-\sigma^2\})\right\}^{-1/2}\mathbf{U}_M^{\rm T}(\mathbf{x}-\overline{\mathbf{x}})\\
&={\rm diag}\left(\left\{\frac{1}{\sqrt{1-\sigma^2/\lambda_i}}\right\}\right)\mathbf{L}_M^{-1/2}\mathbf{U}_M^{\rm T}(\mathbf{x}-\overline{\mathbf{x}})\\
\end{align*}
$$
が得られる。
$${\sigma>0,\lambda_i\geq 0}$$より,$${\frac{1}{\sqrt{1-\sigma^2/\lambda_i}}<1}$$となるため,$${\sigma^2\rightarrow 0}$$の場合と比べて原点に向かってシフトする。
Exercise (12.13)
式(12.10),式(12.12),式(12.13)を出発点として確率的PCAに対する最適な再現点を求めると,
$$
\begin{align*}
\widetilde{\mathbf{x}}&=\overline{\mathbf{x}}+\sum_{i=1}^M\left\{(\mathbf{x}-\overline{\mathbf{x}})^{\rm T}\mathbf{u}_i\right\}\mathbf{u}_i\\
&=\overline{\mathbf{x}}+\sum_{i=1}^M\mathbf{u}_i\mathbf{u}_i^{\rm T}(\mathbf{x}-\overline{\mathbf{x}})\\
&=\overline{\mathbf{x}}+\mathbf{U}_M\mathbf{U}_M^{\rm T}(\mathbf{x}-\overline{\mathbf{x}})\\
&=\overline{\mathbf{x}}+\left\{\mathbf{W}_{\rm ML}(\mathbf{L}_M-\sigma^2\mathbf{I})^{-1/2}\right\}\left\{\mathbf{W}_{\rm ML}(\mathbf{L}_M-\sigma^2\mathbf{I})^{-1/2}\right\}^{\rm T}(\mathbf{x}-\overline{\mathbf{x}})\\
&=\overline{\mathbf{x}}+\mathbf{W}_{\rm ML}(\mathbf{L}_M-\sigma^2\mathbf{I})^{-1}\mathbf{W}_{\rm ML}^{\rm T}(\mathbf{x}-\overline{\mathbf{x}})\\
&=\overline{\mathbf{x}}+\mathbf{W}_{\rm ML}(\mathbf{L}_M-\sigma^2\mathbf{I})^{-1}\mathbf{M}\mathbb{E}[\mathbf{z}|\mathbf{x}]\\
&=\overline{\mathbf{x}}+\mathbf{W}_{\rm ML}(\mathbf{W}_{\rm ML}^{\rm T}\mathbf{W}_{\rm ML})^{-1}\mathbf{M}\mathbb{E}[\mathbf{z}|\mathbf{x}]\\
\end{align*}
$$
が得られる。
Exercise (12.14)
$${M=D-1}$$のとき,
$$
\begin{align*}
DM+1-M(M-1)/2&=D(D-1)+1-(D-1)(D-2)/2\\
&=D^2-D+1-D^2/2+3D/2-1\\
&=D(D+1)/2
\end{align*}
$$
となり,一般的な$${D}$$次元の共分散行列の独立パラメータ数に一致する。
一方,$${M=0}$$のとき,
$$
\begin{align*}
DM+1-M(M-1)/2&=1
\end{align*}
$$
となり,等方性共分散行列の独立パラメータ数に一致する。
Exercise (12.15)
$${\mathbb{E}[\mathbf{z}_n],\mathbb{E}[\mathbf{z}_n\mathbf{z}_n^{\rm T}]}$$を定数とみなして式(12.53)を$${\mathbf{W}}$$で微分した際に$${\mathbf{0}}$$となる条件を求めると,
$$
\begin{align*}
\frac{\partial}{\partial\mathbf{W}}\mathbb{E}\left[\ln p(\mathbf{X},\mathbf{Z}|\boldsymbol\mu,\mathbf{W},\sigma^2)\right]&=-\sum_{n=1}^N\left\{-\frac{1}{\sigma^2}\mathbb{E}[\mathbf{z}_n]^{\rm T}\frac{\partial \mathbf{W}^{\rm T}}{\partial\mathbf{W}}(\mathbf{x}_n-\boldsymbol\mu)+\frac{1}{2\sigma^2}\frac{\partial}{\partial\mathbf{W}}{\rm Tr}\left(\mathbb{E}[\mathbf{z}_n\mathbf{z}_n^{\rm T}]\mathbf{W}^{\rm T}\mathbf{W}\right)\right\}\\
&=\frac{1}{\sigma^2}\sum_{n=1}^N\left\{(\mathbf{x}_n-\boldsymbol\mu)\mathbb{E}[\mathbf{z}_n]^{\rm T}-\frac{1}{2}\frac{\partial}{\partial\mathbf{W}}{\rm Tr}\left(\mathbf{W}\mathbb{E}[\mathbf{z}_n\mathbf{z}_n^{\rm T}]\mathbf{W}^{\rm T}\right)\right\}\\
&=\frac{1}{\sigma^2}\sum_{n=1}^N\left\{(\mathbf{x}_n-\boldsymbol\mu)\mathbb{E}[\mathbf{z}_n]^{\rm T}-\mathbf{W}\mathbb{E}[\mathbf{z}_n\mathbf{z}_n^{\rm T}]\right\}\\
&=\frac{1}{\sigma^2}\left\{\sum_{n=1}^N(\mathbf{x}_n-\boldsymbol\mu)\mathbb{E}[\mathbf{z}_n]^{\rm T}-\mathbf{W}\sum_{n=1}^N\mathbb{E}[\mathbf{z}_n\mathbf{z}_n^{\rm T}]\right\}\\
&=\mathbf{0}\\
\therefore\mathbf{W}_{\rm new}&=\left[\sum_{n=1}^N(\mathbf{x}_n-\boldsymbol\mu)\mathbb{E}[\mathbf{z}_n]^{\rm T}\right]\left[\sum_{n=1}^N\mathbb{E}[\mathbf{z}_n\mathbf{z}_n^{\rm T}]\right]^{-1}\\
&=\left[\sum_{n=1}^N(\mathbf{x}_n-\overline{\mathbf{x}})\mathbb{E}[\mathbf{z}_n]^{\rm T}\right]\left[\sum_{n=1}^N\mathbb{E}[\mathbf{z}_n\mathbf{z}_n^{\rm T}]\right]^{-1}\\
\end{align*}
$$
式(12.53)の$${\mathbf{W}}$$に$${\mathbf{W}_{\rm new}}$$を代入し,$${\sigma^2}$$で微分した際に$${0}$$となる条件を求めると,
$$
\begin{align*}
\frac{\partial}{\partial\sigma^2}\mathbb{E}\left[\ln p(\mathbf{X},\mathbf{Z}|\boldsymbol\mu,\mathbf{W},\sigma^2)\right]&=-\sum_{n=1}^N\left\{\frac{D}{2\sigma^2}-\frac{1}{2\sigma^4}\|\mathbf{x}_n-\boldsymbol\mu\|^2+\frac{1}{\sigma^4}\mathbb{E}[\mathbf{z}_n]^{\rm T}\mathbf{W}_{\rm new}^{\rm T}(\mathbf{x}_n-\boldsymbol\mu)-\frac{1}{2\sigma^4}{\rm Tr}\left(\mathbb{E}[\mathbf{z}_n\mathbf{z}_n^{\rm T}]\mathbf{W}_{\rm new}^{\rm T}\mathbf{W}_{\rm new}\right)\right\}\\
&=-\frac{1}{2\sigma^4}\left(ND\sigma^2-\sum_{n=1}^N\left\{\|\mathbf{x}_n-\boldsymbol\mu\|^2-2\mathbb{E}[\mathbf{z}_n]^{\rm T}\mathbf{W}_{\rm new}^{\rm T}(\mathbf{x}_n-\boldsymbol\mu)+{\rm Tr}\left(\mathbb{E}[\mathbf{z}_n\mathbf{z}_n^{\rm T}]\mathbf{W}_{\rm new}^{\rm T}\mathbf{W}_{\rm new}\right)\right\}\right)\\
&=0\\
\therefore \sigma_{\rm new}^2&=\frac{1}{ND}\sum_{n=1}^N\left\{\|\mathbf{x}_n-\boldsymbol\mu\|^2-2\mathbb{E}[\mathbf{z}_n]^{\rm T}\mathbf{W}_{\rm new}^{\rm T}(\mathbf{x}_n-\boldsymbol\mu)+{\rm Tr}\left(\mathbb{E}[\mathbf{z}_n\mathbf{z}_n^{\rm T}]\mathbf{W}_{\rm new}^{\rm T}\mathbf{W}_{\rm new}\right)\right\}\\
&=\frac{1}{ND}\sum_{n=1}^N\left\{\|\mathbf{x}_n-\overline{\mathbf{x}}\|^2-2\mathbb{E}[\mathbf{z}_n]^{\rm T}\mathbf{W}_{\rm new}^{\rm T}(\mathbf{x}_n-\boldsymbol\mu)+{\rm Tr}\left(\mathbb{E}[\mathbf{z}_n\mathbf{z}_n^{\rm T}]\mathbf{W}_{\rm new}^{\rm T}\mathbf{W}_{\rm new}\right)\right\}\\
\end{align*}
$$
Exercise (12.16)
$${\mathbf{x}_n=\begin{pmatrix}\mathbf{x}_n^{\rm(mis)}&\mathbf{x}_n^{\rm (obs)}\end{pmatrix}^{\rm T}}$$とし,$${\mathbf{x}_n^{\rm(mis)}}$$はデータ欠損した部分,$${\mathbf{x}_n^{\rm (obs)}}$$は観測された部分を表すものとする。$${\mathbf{x}_n^{\rm(mis)}}$$の次元はデータ毎($${n}$$毎)に異なる可能性がある。
E stepでは,$${p(\mathbf{Z},\{\mathbf{x}_n^{\rm(mis)}\}|\{\mathbf{x}_n^{\rm(obs)}\})=p(\mathbf{Z}|\{\mathbf{x}_n^{\rm(obs)}\})p(\{\mathbf{x}_n^{\rm(mis)}\}|\{\mathbf{x}_n^{\rm(obs)}\})}$$を用いて潜在変数$${\mathbf{Z},\{\mathbf{x}_n^{\rm(mis)}\}}$$の期待値を計算する。
各$${\mathbf{x}_n=\begin{pmatrix}\mathbf{x}_n^{\rm(mis)}&\mathbf{x}_n^{\rm (obs)}\end{pmatrix}^{\rm T}}$$の次元にあわせて,
$$
\begin{align*}
\boldsymbol\mu&=\begin{pmatrix}\boldsymbol\mu_1&\boldsymbol\mu_2\end{pmatrix}^{\rm T}\\
\boldsymbol\Lambda&=\mathbf{C}^{-1}\\
&=\begin{pmatrix}\boldsymbol\Lambda_{11}&\boldsymbol\Lambda_{12}\\\boldsymbol\Lambda_{21}&\boldsymbol\Lambda_{22}\end{pmatrix}\\
\end{align*}
$$
と区分することを考えると,
$$
\begin{align*}
p(\mathbf{x}^{\rm(mis)}|\mathbf{x}^{\rm(obs)})&=\mathcal{N}\left(\mathbf{x}^{\rm(mis)}\left|\boldsymbol\mu_1-\boldsymbol\Lambda_{11}^{-1}\boldsymbol\Lambda_{12}(\mathbf{x}^{\rm(obs)}-\boldsymbol\mu_2),\boldsymbol\Lambda_{11}^{-1}\right.\right)
\end{align*}
$$
より,
$$
\begin{align*}
\mathbb{E}\left[\mathbf{x}_n^{\rm(mis)}\right]&=\boldsymbol\mu_1-\boldsymbol\Lambda_{11}^{-1}\boldsymbol\Lambda_{12}(\mathbf{x}_n^{\rm(obs)}-\boldsymbol\mu_2)
\end{align*}
$$
となる。
$${\hat{\mathbf{x}}_n:=\begin{pmatrix}\mathbb{E}\left[\mathbf{x}_n^{\rm(mis)}\right]&\mathbf{x}_n^{\rm (obs)}\end{pmatrix}^{\rm T}}$$と定義すると,$${\mathbf{z}_n}$$に関する期待値は
$$
\begin{align*}
\mathbb{E}\left[\mathbf{z}_n\right]&=\mathbf{M}^{-1}\mathbf{W}^{\rm T}(\hat{\mathbf{x}}_n-\overline{\mathbf{x}})\\
\mathbb{E}\left[\mathbf{z}_n\mathbf{z}_n^{\rm T}\right]&=\sigma^2\mathbf{M}^{-1}+\mathbb{E}\left[\mathbf{z}_n\right]\mathbb{E}\left[\mathbf{z}_n\right]^{\rm T}
\end{align*}
$$
から計算される。
M stepについては,式(12.56),(12.57)の$${\mathbf{x}_n}$$を$${\hat{\mathbf{x}}_n}$$に置き換えればよい。
$${\mathbf{x}_n^{\rm(mis)}}$$が0次元の時,$${\mathbf{x}_n^{\rm (obs)}=\mathbf{x}_n}$$となり,12.2.2で展開された確率的PCAのEMアルゴリズムに帰着する。
Exercise (12.17)
$$
\begin{align*}
\frac{\partial J}{\partial \boldsymbol\mu}&=\frac{\partial}{\partial \boldsymbol\mu}\sum_{n=1}^N\left\|\mathbf{x}_n-\boldsymbol\mu-\mathbf{W}\mathbf{z}_n\right\|^2\\
&=-2\sum_{n=1}^N(\mathbf{x}_n-\boldsymbol\mu-\mathbf{W}\mathbf{z}_n)\\
&=-2N\left(\overline{\mathbf{x}}-\boldsymbol\mu-\mathbf{W}\overline{\mathbf{z}}\right)\\
&=\mathbf{0}\\
\therefore \overline{\mathbf{x}}&=\mathbf{W}\overline{\mathbf{z}}+\boldsymbol\mu\\
\mathbf{x}_n-\overline{\mathbf{x}}&=\mathbf{W}(\mathbf{z}_n-\overline{\mathbf{z}})+\mathbf{0}
\end{align*}
$$
$$
\begin{align*}
\frac{\partial J}{\partial \mathbf{z}_n}&=\frac{\partial}{\partial \mathbf{z}_n}\sum_{n=1}^N\left\|\mathbf{x}_n-\boldsymbol\mu-\mathbf{W}\mathbf{z}_n\right\|^2\\
&=-2\mathbf{W}^{\rm T}\mathbf{x}_n+2\mathbf{W}^{\rm T}\boldsymbol\mu+2\mathbf{W}^{\rm T}\mathbf{W}\mathbf{z}_n\\
&=-2\mathbf{W}^{\rm T}\mathbf{x}_n+2\mathbf{W}^{\rm T}(\overline{\mathbf{x}}-\mathbf{W}\overline{\mathbf{z}})+2\mathbf{W}^{\rm T}\mathbf{W}\mathbf{z}_n\\
&=2\left(\mathbf{W}^{\rm T}\mathbf{W}(\mathbf{z}_n-\overline{\mathbf{z}})-\mathbf{W}^{\rm T}(\mathbf{x}_n-\overline{\mathbf{x}})\right)\\
&=\mathbf{0}\\
\therefore \mathbf{z}_n-\overline{\mathbf{z}}&=\left(\mathbf{W}^{\rm T}\mathbf{W}\right)^{-1}\mathbf{W}^{\rm T}(\mathbf{x}_n-\overline{\mathbf{x}})
\end{align*}
$$
$$
\begin{align*}
\frac{\partial J}{\partial \mathbf{W}}&=\frac{\partial}{\partial \mathbf{W}}\sum_{n=1}^N\left\|\mathbf{x}_n-\boldsymbol\mu-\mathbf{W}\mathbf{z}_n\right\|^2\\
&=\sum_{n=1}^N\left\{\frac{\partial}{\partial \mathbf{W}}\left({\rm Tr}\left(\mathbf{W}\mathbf{z}_n\mathbf{z}_n^{\rm T}\mathbf{W}^{\rm T}\right)-2{\rm Tr}\left(\mathbf{W}^{\rm T}\mathbf{x}_n\mathbf{z}_n^{\rm T}\right)+2{\rm Tr}\left(\mathbf{W}^{\rm T}\boldsymbol\mu\mathbf{z}_n^{\rm T}\right)\right)\right\}\\
&=2\sum_{n=1}^N\left\{\mathbf{W}\mathbf{z}_n\mathbf{z}_n^{\rm T}-\mathbf{x}_n\mathbf{z}_n^{\rm T}+\boldsymbol\mu\mathbf{z}_n^{\rm T}\right\}\\
&=2\sum_{n=1}^N\left\{\mathbf{W}(\overline{\mathbf{z}}-\mathbf{z}_n)(\overline{\mathbf{z}}-\mathbf{z}_n)^{\rm T}-(\overline{\mathbf{x}}-\mathbf{x}_n)(\overline{\mathbf{z}}-\mathbf{z}_n)^{\rm T}\right\}\\
&=2\left(\mathbf{W}\boldsymbol\Omega\boldsymbol\Omega^{\rm T}-\widetilde{\mathbf{X}}\boldsymbol\Omega^{\rm T}\right)\\
&=\mathbf{0}\\
\therefore \mathbf{W}&=\widetilde{\mathbf{X}}\boldsymbol\Omega^{\rm T}\left(\boldsymbol\Omega\boldsymbol\Omega^{\rm T}\right)^{-1}
\end{align*}
$$
Exercise (12.18)
$${\mathbf{W},\boldsymbol\mu,\boldsymbol\Psi}$$の独立パラメータ数はそれぞれ$${DM,D,D}$$のため,factor analysis modelの独立パラメータ数は$${D(M+2)}$$である。
Exercise (12.19)
$${\mathbf{z}}$$の回転行列$${\mathbf{R}}$$を用いて$${\mathbf{W}\rightarrow \mathbf{W}\mathbf{R}}$$とすると,
$$
\begin{align*}
\mathbf{C}&=\left(\mathbf{W}\mathbf{R}\right)\left(\mathbf{W}\mathbf{R}\right)^{\rm T}+\boldsymbol\Psi\\
&=\mathbf{W}\left(\mathbf{R}\mathbf{R}^{\rm T}\right)\mathbf{W}^{\rm T}+\boldsymbol\Psi\\
&=\mathbf{W}\mathbf{W}^{\rm T}+\boldsymbol\Psi
\end{align*}
$$
となる。
Exercise (12.20)
$${\ln p(\mathbf{X},\mathbf{Z}|\boldsymbol\mu,\mathbf{W},\boldsymbol\Psi)=-\frac{N}{2}\boldsymbol\mu^{\rm T}\boldsymbol\Psi^{-1}\boldsymbol\mu+\sum_{n=1}^N\boldsymbol\mu^{\rm T}\boldsymbol\Psi^{-1}(\mathbf{x}_n-\mathbf{W}\mathbb{E}[\mathbf{z}_n])+({\rm other\ terms})}$$より,
$$
\begin{align*}
\frac{\partial}{\partial \boldsymbol\mu}p(\mathbf{X},\mathbf{Z}|\boldsymbol\mu,\mathbf{W},\boldsymbol\Psi)&=-N\boldsymbol\Psi^{-1}\boldsymbol\mu+\boldsymbol\Psi^{-1}\sum_{n=1}^N\left(\mathbf{x}_n-\mathbf{W}\mathbb{E}[\mathbf{z}_n]\right)\\
&=-N\boldsymbol\Psi^{-1}\boldsymbol\mu+\boldsymbol\Psi^{-1}\left(N\overline{\mathbf{x}}-\mathbf{W}\sum_{n=1}^N\mathbb{E}[\mathbf{z}_n]\right)\\
&=-N\boldsymbol\Psi^{-1}\boldsymbol\mu+\boldsymbol\Psi^{-1}\left(N\overline{\mathbf{x}}-\mathbf{W}\mathbf{G}\mathbf{W}^{\rm T}\boldsymbol\Psi^{-1}\sum_{n=1}^N(\mathbf{x}_n-\overline{\mathbf{x}})\right)\\
&=N\left(\boldsymbol\Psi^{-1}\overline{\mathbf{x}}-\boldsymbol\Psi^{-1}\boldsymbol\mu\right)\\
&=\mathbf{0}\\
\therefore \boldsymbol\mu&=\boldsymbol\Psi\boldsymbol\Psi^{-1}\overline{\mathbf{x}}\\
&=\overline{\mathbf{x}}
\end{align*}
$$
$$
\begin{align*}
\frac{\partial^2}{\partial \boldsymbol\mu\partial \boldsymbol\mu^{\rm T}}p(\mathbf{X},\mathbf{Z}|\boldsymbol\mu,\mathbf{W},\boldsymbol\Psi)&=-N\boldsymbol\Psi^{-1}
\end{align*}
$$
より,ヘッセ行列が負定値となるため,$${\boldsymbol\mu=\overline{\mathbf{x}}}$$は最大値である。
Exercise (12.21) - (12.29)
Exercise (12.21)
式(2.116)を用いて$${p(\mathbf{z}|\mathbf{x})}$$の表式を求めると,
$$
\begin{align*}
p(\mathbf{z}|\mathbf{x})&=\mathcal{N}\left(\mathbf{z}|\mathbf{G}\left\{\mathbf{W}^{\rm T}\boldsymbol\Psi^{-1}(\mathbf{x}-\overline{\mathbf{x}})\right\},\mathbf{G}\right)\\
\mathbf{G}&=\left(\mathbf{I}+\mathbf{W}^{\rm T}\boldsymbol\Psi^{-1}\mathbf{W}\right)^{-1}
\end{align*}
$$
となる。
これより,
$$
\begin{align*}
\mathbb{E}[\mathbf{z}_n]&=\mathbf{G}\left\{\mathbf{W}^{\rm T}\boldsymbol\Psi^{-1}(\mathbf{x}_n-\overline{\mathbf{x}})\right\}\\
\mathbb{E}\left[\mathbf{z}_n\mathbf{z}_n^{\rm T}\right]&=\mathbf{G}+\mathbb{E}[\mathbf{z}_n]\mathbb{E}[\mathbf{z}_n]^{\rm T}
\end{align*}
$$
と計算される。
Exercise (12.22)
$$
\begin{align*}
\mathbb{E}\left[\ln p(\mathbf{X},\mathbf{Z}|\boldsymbol\mu,\mathbf{W},\boldsymbol\Psi)\right]&=\sum_{n=1}^{N}\left\{-\frac{1}{2}\ln|\boldsymbol\Psi|-\frac{1}{2}{\rm Tr}\left(\mathbf{W}^{\rm T}\boldsymbol\Psi^{-1}\mathbf{W}\mathbb{E}\left[\mathbf{z}_n\mathbf{z}_n^{\rm T}\right]\right)+(\mathbf{x}_n-\overline{\mathbf{x}})^{\rm T}\boldsymbol\Psi^{-1}\mathbf{W}\mathbb{E}\left[\mathbf{z}_n\right]-\frac{1}{2}(\mathbf{x}_n-\overline{\mathbf{x}})^{\rm T}\boldsymbol\Psi^{-1}(\mathbf{x}_n-\overline{\mathbf{x}})\right\}+({\rm other\ terms})
\end{align*}
$$
より,
$$
\begin{align*}
\frac{\partial}{\partial\mathbf{W}}\mathbb{E}\left[\ln p(\mathbf{X},\mathbf{Z}|\boldsymbol\mu,\mathbf{W},\boldsymbol\Psi)\right]&=\sum_{n=1}^{N}\left\{-\frac{1}{2}\frac{\partial}{\partial\mathbf{W}}{\rm Tr}\left(\mathbf{W}^{\rm T}\boldsymbol\Psi^{-1}\mathbf{W}\mathbb{E}\left[\mathbf{z}_n\mathbf{z}_n^{\rm T}\right]\right)+\frac{\partial}{\partial\mathbf{W}}(\mathbf{x}_n-\overline{\mathbf{x}})^{\rm T}\boldsymbol\Psi^{-1}\mathbf{W}\mathbb{E}\left[\mathbf{z}_n\right]\right\}\\
&=\sum_{n=1}^{N}\left\{-\frac{1}{2}\frac{\partial \boldsymbol\Psi^{-1/2}\mathbf{W}}{\partial\mathbf{W}}\frac{\partial}{\partial\boldsymbol\Psi^{-1/2}\mathbf{W}}{\rm Tr}\left(\boldsymbol\Psi^{-1/2}\mathbf{W}\mathbb{E}\left[\mathbf{z}_n\mathbf{z}_n^{\rm T}\right](\boldsymbol\Psi^{-1/2}\mathbf{W})^{\rm T}\right)+\frac{\partial}{\partial\mathbf{W}}{\rm Tr}\left(\mathbf{W}\mathbb{E}\left[\mathbf{z}_n\right](\mathbf{x}_n-\overline{\mathbf{x}})^{\rm T}\boldsymbol\Psi^{-1}\right)\right\}\\
&=\sum_{n=1}^{N}\left\{-\boldsymbol\Psi^{-1/2}\boldsymbol\Psi^{-1/2}\mathbf{W}\mathbb{E}\left[\mathbf{z}_n\mathbf{z}_n^{\rm T}\right]+\left(\mathbb{E}\left[\mathbf{z}_n\right](\mathbf{x}_n-\overline{\mathbf{x}})^{\rm T}\boldsymbol\Psi^{-1}\right)^{\rm T}\right\}\\
&=-\boldsymbol\Psi^{-1}\mathbf{W}\sum_{n=1}^{N}\mathbb{E}\left[\mathbf{z}_n\mathbf{z}_n^{\rm T}\right]+\boldsymbol\Psi^{-1}\sum_{n=1}^{N}(\mathbf{x}_n-\overline{\mathbf{x}})\mathbb{E}\left[\mathbf{z}_n\right]^{\rm T}\\
&=\mathbf{0}\\
\therefore \mathbf{W}^{\rm new}&=\boldsymbol\Psi\boldsymbol\Psi^{-1}\left[\sum_{n=1}^{N}(\mathbf{x}_n-\overline{\mathbf{x}})\mathbb{E}\left[\mathbf{z}_n\right]^{\rm T}\right]\left[\sum_{n=1}^{N}\mathbb{E}\left[\mathbf{z}_n\mathbf{z}_n^{\rm T}\right]\right]^{-1}\\
&=\left[\sum_{n=1}^{N}(\mathbf{x}_n-\overline{\mathbf{x}})\mathbb{E}\left[\mathbf{z}_n\right]^{\rm T}\right]\left[\sum_{n=1}^{N}\mathbb{E}\left[\mathbf{z}_n\mathbf{z}_n^{\rm T}\right]\right]^{-1}
\end{align*}
$$
一旦,$${\boldsymbol\Psi}$$が対角化行列であることを忘れて微分操作すると,
$$
\begin{align*}
\frac{\partial}{\partial\boldsymbol\Psi}\ln|\boldsymbol\Psi|&=\boldsymbol\Psi^{-1}\\
\frac{\partial}{\partial\boldsymbol\Psi}{\rm Tr}\left(\mathbf{W}_{\rm new}^{\rm T}\boldsymbol\Psi^{-1}\mathbf{W}_{\rm new}\mathbb{E}\left[\mathbf{z}_n\mathbf{z}_n^{\rm T}\right]\right)&=-\mathbf{W}_{\rm new}^{\rm T}\boldsymbol\Psi^{-1}\frac{\partial\boldsymbol\Psi}{\partial\boldsymbol\Psi}\boldsymbol\Psi^{-1}\mathbf{W}_{\rm new}\mathbb{E}\left[\mathbf{z}_n\mathbf{z}_n^{\rm T}\right]\\
&=-\boldsymbol\Psi^{-1}\mathbf{W}_{\rm new}\mathbb{E}\left[\mathbf{z}_n\mathbf{z}_n^{\rm T}\right]\mathbf{W}_{\rm new}^{\rm T}\boldsymbol\Psi^{-1}\\
&=-\boldsymbol\Psi^{-1}\mathbf{W}_{\rm new}\left(\mathbf{W}_{\rm new}\mathbb{E}\left[\mathbf{z}_n\mathbf{z}_n^{\rm T}\right]\right)^{\rm T}\boldsymbol\Psi^{-1}\\
&=-\boldsymbol\Psi^{-1}\mathbf{W}_{\rm new}\left(\mathbf{W}_{\rm new}\mathbb{E}\left[\mathbf{z}_n\mathbf{z}_n^{\rm T}\right]\right)^{\rm T}\boldsymbol\Psi^{-1}\\
\frac{\partial}{\partial\boldsymbol\Psi}(\mathbf{x}_n-\overline{\mathbf{x}})^{\rm T}\boldsymbol\Psi^{-1}\mathbf{W}_{\rm new}\mathbb{E}\left[\mathbf{z}_n\right]&=-(\mathbf{x}_n-\overline{\mathbf{x}})^{\rm T}\boldsymbol\Psi^{-1}\frac{\partial\boldsymbol\Psi}{\partial\boldsymbol\Psi}\boldsymbol\Psi^{-1}\mathbf{W}_{\rm new}\mathbb{E}\left[\mathbf{z}_n\right]\\
&=-\boldsymbol\Psi^{-1}\mathbf{W}_{\rm new}\mathbb{E}\left[\mathbf{z}_n\right](\mathbf{x}_n-\overline{\mathbf{x}})^{\rm T}\boldsymbol\Psi^{-1}\\
\frac{\partial}{\partial\boldsymbol\Psi}(\mathbf{x}_n-\overline{\mathbf{x}})^{\rm T}\boldsymbol\Psi^{-1}(\mathbf{x}_n-\overline{\mathbf{x}})&=-(\mathbf{x}_n-\overline{\mathbf{x}})^{\rm T}\boldsymbol\Psi^{-1}\frac{\partial\boldsymbol\Psi}{\partial\boldsymbol\Psi}\boldsymbol\Psi^{-1}(\mathbf{x}_n-\overline{\mathbf{x}})\\
&=-\boldsymbol\Psi^{-1}(\mathbf{x}_n-\overline{\mathbf{x}})(\mathbf{x}_n-\overline{\mathbf{x}})^{\rm T}\boldsymbol\Psi^{-1}
\end{align*}
$$
より,
$$
\begin{align*}
\frac{\partial}{\partial\boldsymbol\Psi}\mathbb{E}\left[\ln p(\mathbf{X},\mathbf{Z}|\boldsymbol\mu,\mathbf{W},\boldsymbol\Psi)\right]&=\sum_{n=1}^{N}\left\{-\frac{1}{2}\boldsymbol\Psi^{-1}+\frac{1}{2}\boldsymbol\Psi^{-1}\mathbf{W}_{\rm new}\left(\mathbf{W}_{\rm new}\mathbb{E}\left[\mathbf{z}_n\mathbf{z}_n^{\rm T}\right]\right)^{\rm T}\boldsymbol\Psi^{-1}-\boldsymbol\Psi^{-1}\mathbf{W}_{\rm new}\mathbb{E}\left[\mathbf{z}_n\right](\mathbf{x}_n-\overline{\mathbf{x}})^{\rm T}\boldsymbol\Psi^{-1}+\frac{1}{2}\boldsymbol\Psi^{-1}(\mathbf{x}_n-\overline{\mathbf{x}})(\mathbf{x}_n-\overline{\mathbf{x}})^{\rm T}\boldsymbol\Psi^{-1}\right\}\\
&=\boldsymbol\Psi^{-1}\left\{-\frac{N}{2}\boldsymbol\Psi+\frac{1}{2}\mathbf{W}_{\rm new}\left(\mathbf{W}_{\rm new}\sum_{n=1}^{N}\mathbb{E}\left[\mathbf{z}_n\mathbf{z}_n^{\rm T}\right]\right)^{\rm T}-\mathbf{W}_{\rm new}\sum_{n=1}^{N}\mathbb{E}\left[\mathbf{z}_n\right](\mathbf{x}_n-\overline{\mathbf{x}})^{\rm T}+\frac{1}{2}\sum_{n=1}^{N}(\mathbf{x}_n-\overline{\mathbf{x}})(\mathbf{x}_n-\overline{\mathbf{x}})^{\rm T}\right\}\boldsymbol\Psi^{-1}\\
&=-\frac{N}{2}\boldsymbol\Psi^{-1}\left\{\boldsymbol\Psi+\mathbf{W}_{\rm new}\frac{1}{N}\sum_{n=1}^{N}\mathbb{E}\left[\mathbf{z}_n\right](\mathbf{x}_n-\overline{\mathbf{x}})^{\rm T}-\mathbf{S}\right\}\boldsymbol\Psi^{-1}\\
&=\mathbf{0}
\end{align*}
$$
$${\boldsymbol\Psi}$$が対角化行列であるため,
$$
\begin{align*}
\boldsymbol\Psi_{\rm new}&={\rm diag}\left\{\mathbf{S}-\mathbf{W}_{\rm new}\frac{1}{N}\sum_{n=1}^{N}\mathbb{E}\left[\mathbf{z}_n\right](\mathbf{x}_n-\overline{\mathbf{x}})^{\rm T}\right\}
\end{align*}
$$
となる。
Exercise (12.23)
$${K}$$個の混合分布に拡張することを考える。
$$
\begin{align*}
p(\mathbf{x})&=\sum_{k=1}^K\pi_{k}\mathcal{N}\left(\mathbf{x}\left|\boldsymbol\mu_k, \mathbf{W}_k\mathbf{W}_k^{\rm T}+\sigma_k^2\mathbf{I}\right.\right)\\
\sum_{k=1}^K\pi_k&=1
\end{align*}
$$
新たに1-of-K表示の隠れ変数$${\mathbf{s}}$$を導入し,
$$
\begin{align*}
p(\mathbf{x}|s_k=1)&=\mathcal{N}\left(\mathbf{x}\left|\boldsymbol\mu_k, \mathbf{W}_k\mathbf{W}_k^{\rm T}+\sigma_k^2\mathbf{I}\right.\right)\\
p(\mathbf{s}|\boldsymbol\pi)&=\prod_{k=1}^K\pi_k^{s_k}
\end{align*}
$$
と定義することにする。
単一分布の場合の$${\mathbf{z}}$$の事後分布が
$$
\begin{align*}
p(\mathbf{z}|\mathbf{x})&=\mathcal{N}\left(\mathbf{z}\left|\mathbf{M}^{-1}\mathbf{W}(\mathbf{x}-\boldsymbol\mu), \sigma^2\mathbf{M}^{-1}\right.\right)
\end{align*}
$$
で与えられることを考えると,$${\mathbf{z}}$$を$${\{\mathbf{z}_k\}}$$に拡張する必要がある。
以上より,$${K}$$個に拡張した混合分布のdirected graphは以下のようになる。
$${K}$$個の混合分布がパラメータを共有する場合は,以下のようになる。
Exercise (12.24)
学習データ$${\{\mathbf{x}_n\}, n=1,2,\cdots,N}$$が与えられたとして,$${\boldsymbol\eta=\begin{pmatrix}\eta_1&\eta_2&\cdots&\eta_N\end{pmatrix}^{\rm T}}$$を隠れ変数と見なしたEMアルゴリズムを用いて多変量スチューデントの t 分布の最適なパラメータを求めることを考える。
まずは$${\ln p(\mathbf{X},\boldsymbol\eta|\boldsymbol\mu,\boldsymbol\Lambda,\nu),\ p(\boldsymbol\eta|\mathbf{X}, \boldsymbol\mu,\boldsymbol\Lambda,\nu)}$$の具体的な表式を求めておく。
$$
\begin{align*}
\ln p(\mathbf{X},\boldsymbol\eta|\boldsymbol\mu,\boldsymbol\Lambda,\nu)&=\ln\prod_{n=1}^Np(\mathbf{x}_n,\eta_n|\boldsymbol\mu,\boldsymbol\Lambda,\nu)\\
&=\ln\prod_{n=1}^N\mathcal{N}\left(\mathbf{x}_n\left|\boldsymbol\mu,(\eta_n\boldsymbol\Lambda)^{-1}\right.\right){\rm Gam}(\eta_n|\nu/2,\nu/2)\\
&=\sum_{n=1}^N\left\{\ln\mathcal{N}\left(\mathbf{x}_n\left|\boldsymbol\mu,(\eta_n\boldsymbol\Lambda)^{-1}\right.\right)+\ln{\rm Gam}(\eta_n|\nu/2,\nu/2)\right\}\\
&=\sum_{n=1}^N\left\{\frac{D}{2}\ln\left(\frac{\eta_n}{2\pi}\right)+\frac{1}{2}\ln|\boldsymbol\Lambda|-\frac{\eta_n}{2}(\mathbf{x}_n-\boldsymbol\mu)^{\rm T}\boldsymbol\Lambda(\mathbf{x}_n-\boldsymbol\mu)-\ln\Gamma(\nu/2)+\frac{\nu}{2}\ln\frac{\nu}{2}+\left(\frac{\nu}{2}-1\right)\ln\eta_n-\frac{\nu}{2}\eta_n\right\}\\
\end{align*}
$$
$$
\begin{align*}
p(\boldsymbol\eta|\mathbf{X}, \boldsymbol\mu,\boldsymbol\Lambda,\nu)&=\frac{p(\boldsymbol\eta, \mathbf{X}| \boldsymbol\mu,\boldsymbol\Lambda,\nu)}{p(\mathbf{X}| \boldsymbol\mu,\boldsymbol\Lambda,\nu)}\\
&\propto p(\boldsymbol\eta, \mathbf{X}| \boldsymbol\mu,\boldsymbol\Lambda,\nu)\\
&=\prod_{n=1}^N\mathcal{N}\left(\mathbf{x}_n\left|\boldsymbol\mu,(\eta_n\boldsymbol\Lambda)^{-1}\right.\right){\rm Gam}(\eta_n|\nu/2,\nu/2)\\
&\propto\prod_{n=1}^N\eta_n^{-\frac{\nu+D}{2}-1}\exp\left(-\frac{1}{2}\left(\nu+(\mathbf{x}_n-\boldsymbol\mu)^{\rm T}\boldsymbol\Lambda(\mathbf{x}_n-\boldsymbol\mu)\right)\eta_n\right)\\
&=\prod_{n=1}^N{\rm Gam}\left(\eta_n\left|\frac{\nu+D}{2},\frac{\nu+(\mathbf{x}_n-\boldsymbol\mu)^{\rm T}\boldsymbol\Lambda(\mathbf{x}_n-\boldsymbol\mu)}{2}\right.\right)
\end{align*}
$$
E stepでは,$${\ln p(\mathbf{X},\boldsymbol\eta|\boldsymbol\mu,\boldsymbol\Lambda,\nu)}$$に含まれる$${\eta_n,\ \ln\eta_n}$$の期待値を求める。
$$
\begin{align*}
\mathbb{E}[\eta_n]&=\int{\rm d}\boldsymbol\eta\eta_np(\boldsymbol\eta|\mathbf{X}, \boldsymbol\mu,\boldsymbol\Lambda,\nu)\\
&=\int{\rm d}\eta_n\eta_n{\rm Gam}\left(\eta_n\left|\frac{\nu+D}{2},\frac{\nu+(\mathbf{x}_n-\boldsymbol\mu)^{\rm T}\boldsymbol\Lambda(\mathbf{x}_n-\boldsymbol\mu)}{2}\right.\right)\\
&=\frac{\nu+D}{\nu+(\mathbf{x}_n-\boldsymbol\mu)^{\rm T}\boldsymbol\Lambda(\mathbf{x}_n-\boldsymbol\mu)}\\
\mathbb{E}[\ln\eta_n]&=\int{\rm d}\boldsymbol\eta\ln\eta_np(\boldsymbol\eta|\mathbf{X}, \boldsymbol\mu,\boldsymbol\Lambda,\nu)\\
&=\int{\rm d}\eta_n\ln\eta_n{\rm Gam}\left(\eta_n\left|\frac{\nu+D}{2},\frac{\nu+(\mathbf{x}_n-\boldsymbol\mu)^{\rm T}\boldsymbol\Lambda(\mathbf{x}_n-\boldsymbol\mu)}{2}\right.\right)\\
&=\psi\left(\frac{\nu+D}{2}\right)-\ln\left\{\nu+(\mathbf{x}_n-\boldsymbol\mu)^{\rm T}\boldsymbol\Lambda(\mathbf{x}_n-\boldsymbol\mu)\right\}\\
\end{align*}
$$
M stepでは,
$$
\begin{align*}
\mathbb{E}\left[\ln p(\mathbf{X},\boldsymbol\eta|\boldsymbol\mu,\boldsymbol\Lambda,\nu)\right]&=\sum_{n=1}^N\left\{\left(\frac{\nu+D}{2}-1\right)\mathbb{E}[\ln\eta_n]+\frac{1}{2}\ln|\boldsymbol\Lambda|-\frac{\mathbb{E}[\eta_n]}{2}(\mathbf{x}_n-\boldsymbol\mu)^{\rm T}\boldsymbol\Lambda(\mathbf{x}_n-\boldsymbol\mu)-\ln\Gamma(\nu/2)+\frac{\nu}{2}\ln\frac{\nu}{2}-\frac{\nu}{2}\mathbb{E}[\eta_n]\right\}\\
\end{align*}
$$
を最大化する$${\boldsymbol\mu,\ \boldsymbol\Lambda,\ \nu}$$を求める。
$$
\begin{align*}
\frac{\partial}{\partial\boldsymbol\mu}\mathbb{E}\left[\ln p(\mathbf{X},\boldsymbol\eta|\boldsymbol\mu,\boldsymbol\Lambda,\nu)\right]&=\sum_{n=1}^N\mathbb{E}[\eta_n]\boldsymbol\Lambda(\mathbf{x}_n-\boldsymbol\mu)\\
&=\boldsymbol\Lambda\sum_{n=1}^N\mathbb{E}[\eta_n]\mathbf{x}_n-\left(\sum_{n=1}^N\mathbb{E}[\eta_n]\right)\boldsymbol\Lambda\boldsymbol\mu\\
&=\mathbf{0}\\
\therefore \boldsymbol\mu^{\rm new}&=\frac{\sum_{n=1}^N\mathbb{E}[\eta_n]\mathbf{x}_n}{\sum_{n=1}^N\mathbb{E}[\eta_n]}
\end{align*}
$$
$$
\begin{align*}
\frac{\partial}{\partial\boldsymbol\Lambda}\mathbb{E}\left[\ln p(\mathbf{X},\boldsymbol\eta|\boldsymbol\mu,\boldsymbol\Lambda,\nu)\right]&=\sum_{n=1}^N\left\{\frac{1}{2}\boldsymbol\Lambda^{-1}-\frac{\mathbb{E}[\eta_n]}{2}(\mathbf{x}_n-\boldsymbol\mu)(\mathbf{x}_n-\boldsymbol\mu)^{\rm T}\right\}\\
&=\frac{1}{2}\left\{N\boldsymbol\Lambda^{-1}-\sum_{n=1}^N\mathbb{E}[\eta_n](\mathbf{x}_n-\boldsymbol\mu)(\mathbf{x}_n-\boldsymbol\mu)^{\rm T}\right\}\\
&=\mathbf{0}\\
\therefore \boldsymbol\Lambda^{\rm new}&=\left(\frac{1}{N}\sum_{n=1}^N\mathbb{E}[\eta_n](\mathbf{x}_n-\boldsymbol\mu^{\rm new})(\mathbf{x}_n-\boldsymbol\mu^{\rm new})^{\rm T}\right)^{-1}
\end{align*}
$$
$$
\begin{align*}
\frac{\partial}{\partial\nu}\mathbb{E}\left[\ln p(\mathbf{X},\boldsymbol\eta|\boldsymbol\mu,\boldsymbol\Lambda,\nu)\right]&=\frac{1}{2}\left\{\sum_{n=1}^N\left(\mathbb{E}[\ln\eta_n]-\mathbb{E}[\eta_n]\right)-N\left(\psi(\nu/2)-\ln(\nu/2)-1\right)\right\}\\
&=0\\
\therefore \psi(\nu^{\rm new}/2)-\ln(\nu^{\rm new}/2)&=1+\frac{1}{N}\sum_{n=1}^N\left(\mathbb{E}[\ln\eta_n]-\mathbb{E}[\eta_n]\right)
\end{align*}
$$
Exercise (12.25)
$$
\begin{align*}
p(\mathbf{A}\mathbf{x}|\mathbf{z})&=\frac{1}{|\mathbf{A}|}p(\mathbf{x}|\mathbf{z})\\
&=\frac{1}{|\mathbf{A}|^{1/2}|\mathbf{A}^{\rm T}|^{1/2}}p(\mathbf{x}|\mathbf{z})\\
&=\frac{1}{|\mathbf{A}|^{1/2}|\mathbf{A}^{\rm T}|^{1/2}}\left(\frac{1}{2\pi}\right)^{D/2}\frac{1}{|\boldsymbol\Phi|^{1/2}}\exp\left(-\frac{1}{2}(\mathbf{x}-(\mathbf{W}\mathbf{z}+\boldsymbol\mu))^{\rm T}\boldsymbol\Phi^{-1}(\mathbf{x}-(\mathbf{W}\mathbf{z}+\boldsymbol\mu))\right)\\
&=\left(\frac{1}{2\pi}\right)^{D/2}\frac{1}{|\mathbf{A}\boldsymbol\Phi\mathbf{A}^{\rm T}|^{1/2}}\exp\left(-\frac{1}{2}(\mathbf{A}\mathbf{x}-(\mathbf{A}\mathbf{W}\mathbf{z}+\mathbf{A}\boldsymbol\mu))^{\rm T}(\mathbf{A}\boldsymbol\Phi\mathbf{A}^{\rm T})^{-1}(\mathbf{A}\mathbf{x}-(\mathbf{A}\mathbf{W}\mathbf{z}+\mathbf{A}\boldsymbol\mu))\right)\\
&=\mathcal{N}\left(\mathbf{A}\mathbf{x}\left|\mathbf{A}\mathbf{W}\mathbf{z}+\mathbf{A}\boldsymbol\mu,\mathbf{A}\boldsymbol\Phi\mathbf{A}^{\rm T}\right.\right)
\end{align*}
$$
より,$${\mathbf{x}\rightarrow\mathbf{A}\mathbf{x}}$$の変換に伴い,$${\boldsymbol\mu_{\rm ML}\rightarrow\mathbf{A}\boldsymbol\mu_{\rm ML},\ \mathbf{W}_{\rm ML}\rightarrow\mathbf{A}\mathbf{W}_{\rm ML},\ \boldsymbol\Phi_{\rm ML}\rightarrow\mathbf{A}\boldsymbol\Phi_{\rm ML}\mathbf{A}^{\rm T}}$$とすればよい。
$${\mathbf{A},\ \boldsymbol\Phi}$$が共に対角化行列の場合,$${\mathbf{A}\boldsymbol\Phi\mathbf{A}^{\rm T}}$$も対角化行列となる。つまり,factor analysisは$${\mathbf{x}}$$の各成分をre-scalingする変換に対して共変である。
$${\mathbf{A}^{-1}=\mathbf{A}^{\rm T},\ \boldsymbol\Phi=\sigma^2\mathbf{I}}$$の場合,$${\mathbf{A}\boldsymbol\Phi\mathbf{A}^{\rm T}= \boldsymbol\Phi=\sigma^2\mathbf{I}}$$より,確率的PCAは直交行列を用いた$${\mathbf{x}}$$の変換に対して共変である。
Exercise (12.26)
$${\mathbf{K}\mathbf{a}_i=\lambda_iN\mathbf{a}_i}$$のとき,
$$
\begin{align*}
\mathbf{K}^2\mathbf{a}_i&=\mathbf{K}\left(\mathbf{K}\mathbf{a}_i\right)\\
&=\mathbf{K}\left(\lambda_iN\mathbf{a}_i\right)\\
&=\lambda_iN\mathbf{K}\mathbf{a}_i
\end{align*}
$$
となり,式(12.79)を満たす。
$${\mathbf{K}\mathbf{a}=\lambda\mathbf{a},\ \mathbf{K}\mathbf{b}=\mathbf{0}}$$のとき,
$$
\begin{align*}
\mathbf{K}^2(\mathbf{a}+c\mathbf{b})&=\mathbf{K}\left(\mathbf{K}(\mathbf{a}+c\mathbf{b})\right)\\
&=\mathbf{K}\left(\lambda\mathbf{a}+\mathbf{0}\right)\\
&=\lambda\mathbf{K}\mathbf{a}\\
&=\lambda\mathbf{K}(\mathbf{a}+c\mathbf{b})
\end{align*}
$$
$$
\begin{align*}
\mathbf{K}\mathbf{b}&=\begin{pmatrix}\boldsymbol\phi(\mathbf{x}_1)^{\rm T}\\ \boldsymbol\phi(\mathbf{x}_2)^{\rm T}\\\vdots\\\boldsymbol\phi(\mathbf{x}_N)^{\rm T}\end{pmatrix}\sum_{n=1}^Nb_n\boldsymbol\phi(\mathbf{x}_n)\\
&=\mathbf{0}\\
\therefore \sum_{n=1}^Nb_n\boldsymbol\phi(\mathbf{x}_n)&=\mathbf{0}
\end{align*}
$$
$${\mathbf{a}_i\rightarrow \mathbf{a}_i+c\mathbf{b}}$$に対応して$${y_i(\mathbf{x})\rightarrow y_i'(\mathbf{x})}$$とすると,
$$
\begin{align*}
y_i'(\mathbf{x})&=\sum_{n=1}^N(a_{in}+cb_n\boldsymbol\phi(\mathbf{x})^{\rm T}\boldsymbol\phi(\mathbf{x}_n))\\
&=\sum_{n=1}^Na_{in}\boldsymbol\phi(\mathbf{x})^{\rm T}\boldsymbol\phi(\mathbf{x}_n)+c\boldsymbol\phi(\mathbf{x})^{\rm T}\sum_{n=1}^Nb_n\boldsymbol\phi(\mathbf{x}_n))\\
&=\sum_{n=1}^Na_{in}\boldsymbol\phi(\mathbf{x})^{\rm T}\boldsymbol\phi(\mathbf{x}_n)\\
&=\sum_{n=1}^Na_{in}k(\mathbf{x},\mathbf{x}_n)\\
&=y_i(\mathbf{x})
\end{align*}
$$
となり,$${\mathbf{a}_i\rightarrow \mathbf{a}_i+c\mathbf{b}}$$の変換は$${y_i(\mathbf{x})}$$に影響しない。
Exercise (12.27)
$${k(\mathbf{x},\mathbf{x}')=\mathbf{x}^{\rm T}\mathbf{x}'}$$のとき,$${\widetilde{K}_{nm}=(\mathbf{x}_n-\overline{\mathbf{x}})^{\rm T}(\mathbf{x}_m-\overline{\mathbf{x}})}$$より,
$$
\begin{align*}
\widetilde{\mathbf{K}}\mathbf{a}_i&=\lambda_i N\mathbf{a}\\
\begin{pmatrix}(\mathbf{x}_1-\overline{\mathbf{x}})^{\rm T}(\mathbf{x}_1-\overline{\mathbf{x}})&(\mathbf{x}_1-\overline{\mathbf{x}})^{\rm T}(\mathbf{x}_2-\overline{\mathbf{x}})&\cdots& (\mathbf{x}_N-\overline{\mathbf{x}})^{\rm T}(\mathbf{x}_N-\overline{\mathbf{x}})\\ (\mathbf{x}_2-\overline{\mathbf{x}})^{\rm T}(\mathbf{x}_1-\overline{\mathbf{x}})&\ddots&\ddots&\vdots\\\vdots&\ddots&\ddots&\vdots\\(\mathbf{x}_N-\overline{\mathbf{x}})^{\rm T}(\mathbf{x}_1-\overline{\mathbf{x}})&\cdots&\cdots&(\mathbf{x}_N-\overline{\mathbf{x}})^{\rm T}(\mathbf{x}_N-\overline{\mathbf{x}})\end{pmatrix}\begin{pmatrix}a_{i1}\\ a_{i2}\\\vdots\\ a_{iN}\end{pmatrix}&=\lambda_{i}N\begin{pmatrix}a_{i1}\\ a_{i2}\\\vdots\\ a_{iN}\end{pmatrix}\\
\begin{pmatrix}(\mathbf{x}_1-\overline{\mathbf{x}})^{\rm T}\\ (\mathbf{x}_2-\overline{\mathbf{x}})^{\rm T}\\\vdots\\ (\mathbf{x}_N-\overline{\mathbf{x}})^{\rm T}\end{pmatrix}\sum_{n=1}^N(\mathbf{x}_n-\overline{\mathbf{x}})a_{in}&=\lambda_{i}N\begin{pmatrix}a_{i1}\\ a_{i2}\\\vdots\\ a_{iN}\end{pmatrix}\\
\begin{pmatrix}(\mathbf{x}_1-\overline{\mathbf{x}})^{\rm T}\\ (\mathbf{x}_2-\overline{\mathbf{x}})^{\rm T}\\\vdots\\ (\mathbf{x}_N-\overline{\mathbf{x}})^{\rm T}\end{pmatrix}\mathbf{v}_i&=\lambda_{i}N\begin{pmatrix}a_{i1}\\ a_{i2}\\\vdots\\ a_{iN}\end{pmatrix}\\
\therefore a_{in}&=\frac{1}{\lambda_iN}(\mathbf{x}_n-\overline{\mathbf{x}})^{\rm T}\mathbf{v}_i
\end{align*}
$$
これを$${\mathbf{v}_i=\sum_{n=1}^Na_{in}(\mathbf{x}_n-\overline{\mathbf{x}})}$$に代入すると,
$$
\begin{align*}
\mathbf{v}_i&=\sum_{n=1}^Na_{in}(\mathbf{x}_n-\overline{\mathbf{x}})\\
&=\sum_{n=1}^N\left\{\frac{1}{\lambda_iN}(\mathbf{x}_n-\overline{\mathbf{x}})^{\rm T}\mathbf{v}_i\right\}(\mathbf{x}_n-\overline{\mathbf{x}})\\
&=\frac{1}{\lambda_iN}\sum_{n=1}^N(\mathbf{x}_n-\overline{\mathbf{x}})\left\{(\mathbf{x}_n-\overline{\mathbf{x}})^{\rm T}\mathbf{v}_i\right\}\\
&=\frac{1}{\lambda_i}\left\{\frac{1}{N}\sum_{n=1}^N(\mathbf{x}_n-\overline{\mathbf{x}})(\mathbf{x}_n-\overline{\mathbf{x}})^{\rm T}\right\}\mathbf{v}_i\\
&=\frac{1}{\lambda_i}\mathbf{S}\mathbf{v}_i\\
\therefore \mathbf{S}\mathbf{v}_i&=\lambda_i\mathbf{v}_i
\end{align*}
$$
となり,通常のPCAに帰着する。
Exercise (12.28)
$${f(x)}$$が定義域全体で単調増加である場合,定義域全体で逆関数$${f^{-1}(y)}$$が存在することになる。
$${p(y)}$$は式(1.27)より,
$$
\begin{align*}
p(y)&=q\left(f^{-1}(y)\right)\left|\frac{{\rm d}f^{-1}(y)}{{\rm d}y}\right|
\end{align*}
$$
$${f(x)}$$が定義域全体で単調増加であれば$${q(x)}$$の具体的な関数形に依存せずに$${p(y)}$$が存在するため,$${q(x)}$$がある固定された確率分布でも成立する。
(y)}$$が存在することになる。
$${q(x)}$$に式(1.27)を適用すると以下の関係式が得られる。
$$
\begin{align*}
q(x)&=p\left(f(x)\right)\left|\frac{{\rm d}f(x)}{{\rm d}x}\right|\\
\therefore \frac{{\rm d}f(x)}{{\rm d}x}&=\frac{q(x)}{p\left(f(x)\right)}
\end{align*}
$$
Exercise (12.29)
$${\mathbf{z}=\begin{pmatrix}z_1& z_2\end{pmatrix}^{\rm T}}$$とおくと,$${p(\mathbf{z})=p(z_1)p(z_2)}$$のとき,
$$
\begin{align*}
\mathbb{E}[z_1z_2]&=\mathbb{E}[z_2z_1]\\
&=\mathbb{E}[z_1]\mathbb{E}[z_2]
\end{align*}
$$
より,
$$
\begin{align*}
{\rm cov}[\mathbf{z}]&=\mathbb{E}\left[\mathbf{z}\mathbf{z}^{\rm T}\right]-\mathbb{E}\left[\mathbf{z}\right]\mathbb{E}\left[\mathbf{z}\right]^{\rm T}\\
&=\begin{pmatrix}\mathbb{E}\left[z_1^2\right]&\mathbb{E}\left[z_1z_2\right]\\\mathbb{E}\left[z_2z_1\right]&\mathbb{E}\left[z_2^2\right]\end{pmatrix}-\begin{pmatrix}\mathbb{E}\left[z_1\right]\\\mathbb{E}\left[z_2\right]\end{pmatrix}\begin{pmatrix}\mathbb{E}\left[z_1\right]&\mathbb{E}\left[z_2\right]\end{pmatrix}\\
&=\begin{pmatrix}\mathbb{E}\left[z_1^2\right]&\mathbb{E}\left[z_1\right]\mathbb{E}\left[z_2\right]\\\mathbb{E}\left[z_2\right]\mathbb{E}\left[z_1\right]&\mathbb{E}\left[z_2^2\right]\end{pmatrix}-\begin{pmatrix}\mathbb{E}\left[z_1\right]^2&\mathbb{E}\left[z_1\right]\mathbb{E}\left[z_2\right]\\\mathbb{E}\left[z_2\right]\mathbb{E}\left[z_1\right]&\mathbb{E}\left[z_2\right]^2\end{pmatrix}\\
&=\begin{pmatrix}\mathbb{E}\left[z_1^2\right]-\mathbb{E}\left[z_1\right]^2&0\\0&\mathbb{E}\left[z_2^2\right]-\mathbb{E}\left[z_2\right]^2\end{pmatrix}
\end{align*}
$$
となり,$${{\rm cov}[\mathbf{z}]}$$は対角化行列となる。
$${y_2=y_1^2}$$の場合,$${p(y_2|y_1)=\delta(y_2-y_1^2)\neq p(y_2)}$$となるため,$${p(y_1,y_2)=p(y_1)p(y_2)}$$のように分解することはできない。
$$
\begin{align*}
\mathbb{E}[y_2]&=\int{\rm d}y_1\int{\rm d}y_2p(y_1,y_2)y_2\\
&=\int{\rm d}y_1p(y_1)\int{\rm d}y_2p(y_2|y_1)y_2\\
&=\int{\rm d}y_1p(y_1)\int{\rm d}y_2\delta(y_2-y_1^2)y_2\\
&=\int{\rm d}y_1p(y_1)y_1^2\\
&=\mathbb{E}[y_1^2]\\
\mathbb{E}[y_1y_2]&=\int{\rm d}y_1\int{\rm d}y_2p(y_1,y_2)y_1y_2\\
&=\int{\rm d}y_1p(y_1)y_1\int{\rm d}y_2p(y_2|y_1)y_2\\
&=\int{\rm d}y_1p(y_1)y_1\int{\rm d}y_2\delta(y_2-y_1^2)y_2\\
&=\int{\rm d}y_1p(y_1)y_1^3\\
&=\mathbb{E}[y_1^3]\\
\end{align*}
$$
より,共分散行列の非対角項は
$$
\begin{align*}
\mathbb{E}[y_1y_2]-\mathbb{E}[y_1]\mathbb{E}[y_2]&=\mathbb{E}[y_1^3]-\mathbb{E}[y_1]\mathbb{E}[y_1^2]
\end{align*}
$$
となる。$${p(y_1)}$$が$${y_1=0}$$の左右で対称な分布の場合,非対角項が$${0}$$となることが分かる。
以上より,共分散行列が対角行列となることは変数間が独立であることの十分条件ではないことが示された。
参考文献
この記事が気に入ったらサポートをしてみませんか?