見出し画像

モデル評価におけるデータセットの選択

”過学習”という言葉をご存知でしょうか?過学習とは、学習に用いたデータの特徴を過剰に学習してしまい、予測したい新規のデータに対してフィットしないモデルができてしまう現象のことです。

精度の高いモデルを構築するためには、過学習を防ぐ必要があります。

過学習を防ぐためには、学習データの数を増やすことで、広範囲のデータに対応できるモデルを作ることや、説明変数を減らしてモデルを単純化すること等の手段があります。

しかし、それらの作業は時間がかかり、容易ではありません。

ユーザーの皆さんがそれらのデータの前処理で苦労しないために、ニューラルワークスPredictには過学習を防ぐためのメカニズムが用意されています。

そのひとつが、「データセットの選択」です。

ニューラルワークス Predictは、モデル化に際して、データを”学習セット”70%と”テストセット”30%に切り分けます。(デフォルト設定ではこの割合ですが、オプションで変更可能です。)

学習中、カスケード学習法という方法で中間層を1つずつ追加していきますが、この際、無限に中間層を追加していくと、学習セットにしかフィットしない過学習なモデルになってしまいます。

そこで、中間層を1つ追加する度、テストセットでモデルパフォーマンスを評価し、これが一定以下になったときにPredictは学習を終了するのです。

つまり、”テストセット”が”学習セット”の学習が行き過ぎないように監視する役割を果たしているのです。

ご理解頂けましたでしょうか?

ニューラルワークス Predictは学習に際して、2つの「データセット」を使って、過学習を防いでいるのです。

弊社では、データ分析プロジェクトにまつわる様々なご相談に、過去20年以上に渡るプロジェクト経験に基づき、ご支援しています。

社内セミナーの企画等、お気軽にご相談いただければ幸いです。

この記事が気に入ったらサポートをしてみませんか?