予測誤差分析への自己組織化マップの活用
予測システムの構築にあたって、弊社ではまずその柱である予測モデルのプロトタイプ構築とテストデータに対する統計的な性能評価を行います。
次に、そこで見出された予測値と実績値(答え)との誤差をどのように解釈し、モデルに反映していくかを業務の観点で顧客と検討を行ないます。
その際、その誤差はテストデータ中に学習データに含まれないパターンがある為であるとして、機械的に学習データ+テストデータを新たな学習データとして学習させる戦略は、問題の本質を隠し、かつ学習データ量および計算時間の無制限の増大を引き起こし兼ねません。
そこで次善策として、誤差が大きいレコードに着目し、かつ外れ値とは見なせないレコードのみを学習データとして追加する戦略を取る場合、注意すべきは目的変数値は大きく異なるが、説明変数のセットに大きな違いがないような場合で、この場合にはそれぞれのケースを識別する情報量が足りないことが問題であり、新たな変数を見つけなければ問題は解決できません。
このような、学習データとテストデータのパターンの違いを把握するに当たって、自己組織化マップ(SOM)の適用は効果的です。
SOMによって説明変数セットに対するパターンの可視化を行なうことで、予測誤差が学習データのパターンの不足によるものか(学習データとテストデータで明確なクラスターを構成)、あるいは説明変数の不足によるものか(この場合は、同一ノード上の目的変数値のばらつきを見ます)を把握でき、モデルの性能改善の指針となります。
ニューラルワークスPredictやProfessional II/PLUSでは、SOMの基本出力のみで出力結果のグラフィックス表現を持っていませんが、弊社ではこの点を補うべく、ニューラルワークスが出力した結果をExcel散布図を使用して可視化するマクロを現在無償でご提供しています。
上記問題で課題をもたれている、あるいは関心を持たれた読者様はニューラルワークス技術サポート(ann@setsw.co.jp)まで、お問い合わせください。
弊社では、データ分析プロジェクトにまつわる様々なご相談に、過去20年以上に渡るプロジェクト経験に基づき、ご支援しています。
社内セミナーの企画等、お気軽にご相談いただければ幸いです。
この記事が気に入ったらサポートをしてみませんか?