見出し画像

主成分分析との関係性から自己組織化マップを理解しよう

前回は、自己組織化マップ(SOM)の威力は、多次元データを低次元空間(正確には格子空間上)に集約して、レコード間の関係性を可視化できることを説明しました。 同様な多次元データを可視化する方法としては、主成分分析による次元削減が知られているところですが、その違いは何でしょうか?

主成分分析では、「多次元空間上でのデータ分布が、ある2次元平面上に良く分布していること」という強い仮定があり、問題はこの仮定が事前に知りえない点です。

そのような、あらかじめデータ分布の特性が分からない分布一般に適用できるのが、SOMという訳です。

さて、SOM適用のメリットは、データの可視化の他に何が考えられるでしょうか? 例えば、データ処理の観点では、以下が挙げられます:

・ 大規模データの圧縮
  大規模データから、母集団を特徴付ける少数の代表レコードを抽出。

・ データクレンジング(データクリーニング)
  重複レコードの削除。欠損値の補完。

・ SOMによるクラス分類を組み合わせた高精度予測システムの構築
  SOMによって発見されたクラスターごとに、予測モデルを構築。予測工
  程では、前処理としてSOMを経由させることで、最適な予測モデルの選
  択を行う。

SOMの具体的な問題への豊富な適用例は、日本語の書籍で分かり易いものとして[1]や[2]がSOM研究の第一人者の解説ぞろいで、お勧めです。

[1] 自己組織化マップとその応用
  著:徳高平蔵・大北正昭・藤村喜久郎【編】
  出版社:シュプリンガー・ジャパン

[2] 自己組織化マップ応用事例集--SOMによる可視化情報処理
  著:徳高 平蔵・藤村 喜久郎・ 山川 烈【監修】
  出版社:海文堂出版

弊社では、データ分析プロジェクトにまつわる様々なご相談に、過去20年以上に渡るプロジェクト経験に基づき、ご支援しています。

社内セミナーの企画等、お気軽にご相談いただければ幸いです。

この記事が気に入ったらサポートをしてみませんか?