![見出し画像](https://assets.st-note.com/production/uploads/images/112049332/rectangle_large_type_2_4f76ea16ff02ddaf16ab85fe943fcae2.png?width=800)
AdamWとは
オプティマイザはニューラルネットワークの訓練を効率的に行うために重要な役割を果たしますが、その中でもAdam(アダム)は有名です。Adamの論文は2015年に発表されました。そして、多くの人々がほぼデフォルト的にAdamを使うようになりました。
しかし、その約3年後にAdamWの論文が発表され、Adamの実装における重要な欠陥を指摘し、その解決策を提示しました。
今回の記事では、Adam と AdamW について解説します。まず、Adam を解説する前にSGDについて復習します。その次に、SGDと比較しながら Adam の仕組みを解説します。さらに、Adam にどのような問題があるのかを説明します。最後に、AdamW が Adam の欠陥をどのように克服したのかを紹介します。
では、さっそく始めましょう。
この記事が気に入ったらサポートをしてみませんか?