統計的推量:最小二乗法
入力、または訓練データ$${{\bm x}_i, i=1,\cdots d}$$から、スカラー、またはカテゴリー変数$${y_i, i=1,\cdots n}$$への関数を推定する回帰法について、$${y_i}$$有りを教師付き学習、$${y_i}$$無しを教師無し学習と呼んでいる。
最小二乗推量法は、教師付き学習において、回帰モデル$${r({\bm x}:{\bm \alpha})}$$の$${{\bm \alpha}}$$をパラメータとして、二乗誤差を最小にする$${{\bm \alpha}}$$、$${{\bm \alpha}_{LS}=\arg\min_{{\bm \alpha}}\sum^n_{i=1}\left(y_i - r({\bm x}_i:{\bm \alpha})\right)^2}$$を推量する。
回帰モデルにガウスカーネルを用いると、
$${r({\bm x}:{\bm \alpha})=\displaystyle{\sum^n_{j=1}\alpha_j \exp\left( -\frac{||{\bm x}-{\bm x}_j||^2}{2h^2}\right)}}$$
と表せるが、過学習(オーバーフィッティング)を防ぐために、ハイパーパラメータの$${\lambda}$$を入れて、リッジ正則化を加える。
$${r({\bm x}:{\bm \alpha})=\displaystyle{\sum^n_{j=1}\alpha_j \exp\left( -\frac{||{\bm x}-{\bm x}_j||^2}{2h^2}\right) + \lambda ||\alpha||^2}}$$
$${\lambda}$$の値を増やし、正則化のペナルティを上げることで、モデルの重みを軽減する。
$${{\bm \alpha}_{LS}}$$を得るために、$${K_{ij}=\displaystyle{\exp\left( -\frac{||{\bm x}_i-{\bm x}_j||^2}{2h^2}\right)}}$$なるカーネル行列$${{\bm K}}$$を導入する。
これを用い、$${{\bm \alpha}_{LS}}$$を
$${{\bm \alpha}_{LS}=\arg\min_{{\bm \alpha}}[({\bm y}-{\bm K\alpha})^T({\bm y}-{\bm K\alpha}) + \lambda {\bm \alpha}^T{\bm \alpha}]}$$
と表す。
$${E({\bm \alpha})=({\bm y}-{\bm K\alpha})^T({\bm y}-{\bm K\alpha}) + \lambda {\bm \alpha}^T{\bm \alpha}}$$
$${={\bm y}^T{\bm y} - {\bm y}^T{\bm K \alpha}- {\bm\alpha}^T{\bm K}{\bm y} +{\bm\alpha}^T{\bm K}{\bm K\alpha}+ \lambda {\bm \alpha}^T{\bm \alpha} }$$
これを$${{\bm \alpha}}$$で微分すると、
$${\displaystyle{\frac{\partial E({\bm \alpha})}{\partial{\bm \alpha}} = -{\bm K}^T{\bm y} - {\bm K}^T{\bm y} + 2 {\bm K}^T{\bm K\alpha} + 2 \lambda{\bm \alpha}= 2({\bm K}^T{\bm K\alpha}-{\bm K}^T{\bm y} +\lambda{\bm \alpha})}}$$
$${\displaystyle{\frac{\partial E({\bm \alpha})}{\partial{\bm \alpha}} =0}}$$から、
$${{\bm \alpha}=\displaystyle{-\frac{1}{\lambda}{\bm K}^T({\bm K\alpha}-{\bm y})}}$$が得られる。
ここで、$${{\bm \omega}=\displaystyle{-\frac{1}{\lambda}({\bm K\alpha}-{\bm y})}}$$と置くと、$${{\bm \alpha}={\bm K}^T{\bm \omega}}$$となり、これを$${E({\bm \alpha})}$$に代入すれば、
$${E({\bm \omega})={\bm y}^T{\bm y} - {\bm y}^T{\bm KK}^T{\bm \omega}- {\bm\omega}^T{\bm KK}^T{\bm y} +{\bm\omega}^T{\bm KK}^T{\bm KK}^T{\bm\omega}+ \lambda {\bm \omega}^T{\bm KK}^T{\bm \omega} }$$
$${{\bm KK}^T}$$
$${{\bm X}={\bm KK}^T}$$と置く。ここで、$${{\bm K}^T={\bm K}}$$であり、同時に$${{\bm X}^T={\bm X}}$$であることを用いて、
$${E({\bm \omega})={\bm y}^T{\bm y} - {\bm y}^T{\bm X}{\bm \omega}- {\bm\omega}^T{\bm X}{\bm y} +{\bm\omega}^T{\bm XX}^T{\bm\omega}+ \lambda {\bm \omega}^T{\bm X}{\bm \omega} }$$
と書ける。
$${\displaystyle{\frac{\partial E({\bm \omega})}{\partial{\bm \omega}}=-2{\bm Xy} + 2{\bm XX\omega} +2\lambda{\bm X\omega}}}$$より、
$${{\bm XX\omega}+\lambda{\bm X\omega}-{\bm Xy} =0}$$の左から$${{\bm X}^{-1}}$$をかけて、
$${{\bm X\omega}+\lambda{\bm I}\omega={\bm y}}$$
よって、最終的に、$${{\bm \omega}=({\bm X}+\lambda{\bm I}\omega)^{-1}{\bm y}}$$となる。
$${{\bm \alpha}={\bm K}^T{\bm \omega}}$$であったから、
$${{\bm \alpha}_{LS}={\bm K}({\bm KK}+\lambda{\bm I}\omega)^{-1}{\bm y}}$$
と得られる。
最尤法の定義が$${L({\theta})=\displaystyle{\Pi}^n_{i=1}g({\bm x};{\bm \theta})}$$であることを思い出せば、
$${{\bm \alpha}_{LS}=\arg\min_{{\bm \alpha}}\sum^n_{i=1}\left(y_i - r({\bm x}_i:{\bm \alpha})\right)^2}$$は、$${ {\bm \alpha}_{LS}=\arg\max_{{\bm \alpha}}\Pi^n_{i=1} e^{-\left(y_i - r({\bm x}_i;{\bm \alpha})\right)^2} }$$に等しいことから、最小二乗法は期待値を$${r({\bm x}_i;{\bm \alpha})}$$にとった時の最尤法と同値である。