過学習

・過学習:テスト誤差と訓練誤差とで学習曲線が乖離すること。オーバーフィッティングとも言う。

画像1

原因としてネットワークの自由度(層数、ノード数、パラメータの値etc...)が高い

・正則化:ネットワークの自由度を制約すること。L1正則化、L2正則化、ドロップアウトなどの手法がある。

・Weight decay(荷重減衰):ニューラルネットワークの重みが大きくなると過学習が発生することがある。逆伝搬の誤差に対して、正則化項を加算することで、重みを抑制する。

・L1、L2正則化:正則化の計算

画像2

p = 1の場合、L1正則化と呼ぶ。p = 2の場合、L2正則化と呼ぶ。

ラッソ回帰とリッジ回帰は、正則化項のある回帰で、ラッソ回帰(Lasso)は最小二乗法の式に正則化項(L1正則化)を加えているのに対し、リッジ(Ridge)回帰では最小二乗法の式に正則化項(L2正則化)を加えている。

確認テスト:下図について、L1正則化を表しているグラフはどちらか答えよ

画像3

・回答:右側のグラフ

・ドロップアウト:過学習の課題の一つがノードの数が多く、ニューラルネットワークの表現力が強すぎる。ランダムにノードを削除して学習させることがドロップアウトである。

画像4

考察

・過学習はニューラルネットワークにおいて勾配消失問題(未学習)を解決したことで新な問題である。ドロップアウトをはじめに、様々な手法が併用される。特にデータアーギュメント(データ拡張、水増し)も非常に有効で、よく使われている。データアーギュメントには簡単な回転、拡大・縮小から、cut-outやcut-mixなど、画像の一部をカットすることや画像の一部をミックスさせる手法がある。

この記事が気に入ったらサポートをしてみませんか?