カーネル法の基本戦略(機械学習)

2023年8月12日 16:56

読書感想として

最近やっていた確率微分方程式については一旦満足したので、少し前からブックオフで見つけた以下の本を読み始めた。

600ページ超えの大著であるこの本は３部構成になっていて、
第１部・・・基本概念
第２部・・・パターン解析のアルゴリズム
第３部・・・カーネルの構築
である。この内の第一部を読み終わったのでざっくり感想を含めてカーネル法について執筆してみようと思った。ただし、第一部だけとは言え重要な事がてんこ盛りであったので、カーネル法がやりたい事、その基本戦略についてかみ砕いて話そうと試みるのがこの記事である。

レベル感

と、その前にこの本に挑戦する上で必要な知識について述べておく。これは以降の記事のレベル(簡単めに話す)とは関係ない事と、記事の内容にも関係ないが本自体に興味を持った読者の為に述べるものである。
まず数学的側面として、線形代数、微積、位相空間、それから関数解析についてヒルベルト空間、$${L^2}$$空間を知っているくらいには少し。また統計的・機械学習的側面として初等的なエンジニアとして常識的な事を知っていること(計算量、モジュール、アルゴリズムとしてロバストと聞いて「太刀打ち出来ん・・・」と思わないレベルであること)、測度論的にガチガチではない程度の数理統計学を知っていること。また多変量解析として線形回帰分析、判別分析、主成分分析などの基礎を少しくらい知っていないと本書がどの位置にあるか分からないかもしれない。カーネル法については聞いたことが無くてもいいと思う。

カーネル法の基本戦略

トレーニングデータとして非線形なものを仮定するからやりたいのは非線形回帰であるのだが、非線形を線形データに変換し線形回帰を行い、それを再び非線形の関係へと還元しよう、という一連の手法がカーネル法の概要である。ここで元の空間をカーネル関数$${\phi}$$により特徴空間に移すルーチンと、特徴空間に対する線形回帰を行うルーチンは独立しており、カーネル法の１つの特徴としてシステムとしてモジュールの組み合わせで表現できると言える。

カーネル行列

$${l}$$個の$${n}$$次元ベクトルであるトレーニングデータ$${x_i}$$が与えられたとき、カーネル行列$${G}$$を特徴空間の内積$${G_{i,j} = [\phi(x_i), \phi(x_j)]}$$でもって定義するが、パターン解析ルーチンにおいて知っておけば良いのは上記カーネル行列とラベルのみである。(※この意味でカーネル行列は情報ボトルネックと呼ばれる。)
即ち$${\phi}$$によって特徴づけられるヒルベルト空間である特徴空間$${\{\phi(x);x \in X\}}$$(Xは入力空間)そのものを同定する必要はなく、特徴空間における回帰を実行する上で必要な前処理、演算、回帰そのものはカーネル行列に対する作用、またカーネル行列を使った演算として表現できるということだ。
例えば入力空間$${X \subset \mathbb{R}^n}$$において関数
$${\kappa (x, z) = [x, z]^2}$$
は特徴写像
$${ \phi : x \rightarrow \phi(x)= (x_ix_j)_{i,j} \in \mathbb{R}^m, m = n^2}$$
を表しているがパターン解析で必要となるのは、トレーニングデータから作られるカーネル行列のみであるので、これだけでも計算量として少なくなることが分かるだろう。

リッジ回帰

カーネル法に対する直接的な事ではないが、モジュール化出来る線形回帰部分はリッジ回帰を用いる。記述として多変量解析において既知な事を用いるが、$${X=(x_1, \cdots x_l)'}$$行列に対して、残差$${\xi = y - Xw}$$の$${l^2}$$損失の最小化解$${w}$$は正規方程式$${X'Xw = X'y}$$の解なのであるが、$${X'X}$$は必ずしも正則ではない。
このことは逆行列を持つために十分な量のデータが存在しない時が典型的であり、即ち$${w}$$の次元における自由度が高いという贅沢な悩みである。しかし、贅沢とは言っても数学的に次元がフィットしない故解くことは出来ない。そこで重み$${w}$$に罰金をかける、即ち以下の最適化問題を解くことがリッジ回帰である。
$${\min_{w} \lambda \| w \|^2 + \sum (y_i - [w, x])^2}$$
これが任意の$${\lambda > 0}$$に対して解を持つ要請に耐えうる形式であるが、意味的に考えて$${w}$$の自由度の分を無限にノルム最小へと精進する方向に動機づけているのでこれは明らかであろう。

関数の容量

複数の検定があるとき、検定を続けていったときに、全体としてみない限り高い確率で帰無仮説が有意になるだろうことは確率の積法則から明らかであろう。学習の際にはパターン関数のクラスを用意するが、このクラスが計量的に大きければ本来は学習されるべきでない事項も何かのパターンに当てはまってしまうということがあり得る。それは大きなパターン関数の集合を連続なる検定として適用してしまっているからである。
これを制御する指標としてラドマッハ複雑性があるが、記事も長くなってきたので略す。

まとめ

数学が出来る人にとってはめちゃくちゃ良い本で面白いです。今までカーネル法の違う本とかで挫折してきたのでこれなら分かりそうです。
皆さんも興味があればぜひ読んでみてください。
次は第二部読み終わったときに記事にするかもしれません。

スキ、フォロー、シェアしてください！；；
ではまた！！！！

この記事が気に入ったらサポートをしてみませんか？