見出し画像

感度分析におけるデータセットの選択

ニューラルワークス Predictとニューラルワークス Professional II/PLUSは両者とも感度分析機能を持っています。

感度分析は個々の入力フィールドがモデルに与える影響を決定するのに使われます(背景となる詳細は ニューラルワークス Predictによる感度分析 を見てください)。

ニューラルネットワークは大抵の場合、さまざまなデータセットを使用して生成され、通常、学習データセット、テストデータセット、そして1つ以上の検証データセットを使用します。

よく行われるものとして、学習とテストのサブセット使ってモデルの構築と選択を行い、検証セットを使って期待される実世界での性能を測定します。

では、どのデータセットがモデルの入出力感度(すなわち、どの入力が最も出力に影響を与えるか)を測定するのにベストなのでしょうか?

個人的には、そのデータの分布を知ることが有益であると常に警告しつつも、最も全体像を得るために、利用可能な全てのデータを使用するのが好みです。

たとえば、出力が0と1をもつ2クラスのデータセットを考えましょう。

(温度あるいは販売量のような連続変数のターゲットの場合でも同様の議論が可能ですが、ただ2つのカテゴリを持つ場合を考えるのが理解するのに最も容易です)この2クラスの例では、学習データセットはクラス0とクラス1のデータレコードの数がほぼ同一で、平衡を保たれていると想定しましょう。

テストデータセットもまた平衡を保たれているとし、検証データセットは実際の世界の分布の特徴を持っているとしましょう。

それらの検証データの90パーセントがすべてクラス1にあると想像してみましょう。

そのセットでの統計性能を測定する際、R相関あるいはRMSエラーのような全体を包含する測度、あるいは平均分類率のような測度を使用するよりも、それぞれのクラスを別々に見てください。

また、歪対称のデータセットから生成された感度分析の出力を信用しないでください。

理想的なデータセットは全てのパターンのデータが出現し、平衡が保たれたものです。

2番目に、どのデータセットで感度分析を通すかという問題があり、そのデータはそのモデルに関係したデータでなければならないということです。

これは明らかであるというのは、本当でしょうか?

もし、ニューラルネットワークモデルがりんごの種類を区別するモデルであれば、そのりんごモデルにオレンジを入力することはないでしょう。

しかしながら、特に時系列のアプリケーションでは、学習、テスト、そして検証データセットが似通っていないデータを持つのはいたって起こりうることです-データ構造は同一であるにも関わらず。 

「強気筋」市場中に構築された株式市場モデルで、「弱気筋」市場からの検証データを使用することを想像してみましょう。

予測モデルの出力と同様、感度分析の結果はモデルが問題を理解しているか(どれだけよく学習してきたか)どうかに依存し、処理されるデータがそのモデルにどれだけよくフィットしているか(新しいデータが学習に使用されたデータにどの程度似ているか)に依存します。

感度分析の結果はあまり学習していないモデルやあるいはあまりフィットしていないデータの場合に誤った結果になる可能性があります。

弊社では、データ分析プロジェクトにまつわる様々なご相談に、過去20年以上に渡るプロジェクト経験に基づき、ご支援しています。

社内セミナーの企画等、お気軽にご相談いただければ幸いです。

この記事が気に入ったらサポートをしてみませんか?