Coursera machine learning week3まとめ（part2）

2020年11月7日 17:24

前回ロジスティック回帰についてまとめました。今回はそれの続きです。今回の内容は過剰適合と正則化についてまとめます。

・The problem of overfitting

過剰適合とは何でしょうか。簡単に言えば訓練データに対してとても精度が良すぎるせいで、テストデータなどの未知のデータに対しての性能が悪くなってしまうことです。

原因として外れ値も含んでいるから。

講座では住宅価格の例が挙げられています。一番左は訓練データに対しても精度が悪そうです。このようにテストデータだけではなく訓練データにも精度が悪くなってしまうことを適合不足(Underfitting)と言います。一番右側が過剰適合が生じている例です。とても複雑な関数になってしまい、予測が難しくなります。恐らくロジスティック回帰の方でみるとより顕著になっていますね。決定境界がかなり複雑になっています。