Generative Topographic Mapping (GTM) の進化する入門書・実践書・教科書(随時更新)
こんにちは!大学教員ブロガーのねこしです。http://univprof.com/
Generative Topographic Mapping (GTM) について網羅的に日本語で解説したものってないんですよね。というわけで、これはGTMの基礎から応用まで記載したはじめての入門書・実践書・教科書ということになります。
目次はこちらです。
1. GTMとは?
2. GTMのアルゴリズムを数式で解説
3. GTMの特徴
4. GTMのハイパーパラメータの決め方
それでははじめます。
GTMとは?
GTMの理解を難しくしている原因として、GTMは多変量・多次元のデータセットを2次元平面に写像する手法だ、という固定観念があります。もちろん、多次元のデータセットを、2次元上に表現する方法なのですが、実はGTMを多次元空間から二次元平面への変換ととらえるのではなく、多次元空間から(二次元マップのグリット数)次元への変換ととらえたほうが分かりやすいのです。GTMを勉強したことのある人の中に、もうここまでの解説でスッキリした人もいるかもしれませんね。
まず一般的なGTMの説明です。
Principal Component Analysis (PCA) では多変量・多次元のデータセットがあり、そのデータから、そのデータの情報量がなるべく大きくなるように主成分軸が計算されました。この結果、見える化・可視化のときには第一、第二主成分を用いて二次元マップが作成されたわけです。PCAでは、データセットがあって、それにもとづいて二次元マップができあがります。PCAの詳細はこちら↓
GTMではPCAの逆です。まず二次元のマップがあります。伸び縮みする伸縮自在のランチョンマットをお考えください。まずこのランチョンマットで例えられる二次元マップが最初にあります。このランチョンマットを、実際のデータ空間において伸び縮みさせて、なるべく多くのサンプルの近くを通るようにします。そして、再度このランチョンマットを二次元で見ることで、サンプルが見える化・可視化されるわけです。
こういう意味で、GTMはSelf-Organizing Map (SOM) に似ています。そもそもGTMは、以下のSOMの問題を解決する形で開発されました。
■マップのコスト関数 (評価関数) がない
■学習率や近傍関数をどのように選べばよいか、理論的背景がない
■SOMの計算が収束するとは限らない
■SOMでは発火したニューロンどれか、といった情報のみでありマップ上の確率密度が定義されていない
■元のサンプル同士が類似しているからといって、SOMの2次元マップ上で距離が近いとは限らない
しかし、最初に話したとおり、GTMを多次元→二次元の変換ととらえるのではなく、多次元→(二次元のマップのグリット数)次元の変換ととらえたほうが分かりやすいです。たとえば、・・・
この先は有料とさせていただきます。新しい情報が入りましたら、内容はそのつど更新します。人気が出てきたら値段を上げてみるかもしれません。
GTMについて網羅的に理解して実際に使えるようになりたい方はぜひご購入ください!
ここから先は
¥ 980
この記事が気に入ったらサポートをしてみませんか?