NNの低ランク学習の論文紹介[Cohere論文紹介No.4]
論文名
Exploring Low Rank Training of Deep Neural Networks
arXivリンク
https://arxiv.org/pdf/2209.13569
ひとこと要約
NNの低ランク学習において、スペクトル初期化、L2正則化などの調査を行なった。
メモ
タスクとモデル
CIFAR-100やImageNetなどの画像認識タスク
モデル:Wide ResNet、ResNet-50
言語モデリングタスク(One Billion Word データセット)
モデル:GPT-2
実験
以下は全て低ランク学習を行っている。
初期化に関する実験
内容
スペクトル初期化(重み行列Wを特異値分解(SVD)を用いて初期化する手法)と従来の初期化手法の性能比較
特異値を1に設定した場合の性能評価(特異ベクトルの方向の重要性の検証)
結果
従来の初期化手法と(ex.Heの初期化)比較して、スペクトル初期化が同等の性能をもたらす。
特異値が性能向上に大きな役割を果たしているのではなく、特異ベクトルの方向が重要であることを実証。
L2正則化・フロベニウス減衰に関する実験
内容
(低ランク学習において)学習率を半分にした場合の性能評価(高い有効ステップサイズ(学習率をパラメータの大きさ(フロベニウスノルム)で割ったもの)の重要性の検証)
(低ランク学習において)L2正則化とフロベニウス減衰の検証
結果
学習率を半分にしても性能が低下しないことから、高い有効ステップサイズが良い性能につながるという仮説とは異なる結果。
フロベニウス減衰は、L2正則化と比較して常に良い性能。フロベニウス減衰がネットワークの有効ランクを維持するのに役立つことを示唆。
事前学習の効果に関する実験(4.3節)
内容
(低ランク学習において)言語モデルにおける事前学習の効果の検証
(低ランク学習において)画像認識タスクにおける事前学習の効果の検証
(低ランク学習において)事前学習で得られた解と通常の解の線形補間による比較
結果
言語モデルでは事前学習によって性能を大幅に改善。
画像認識タスクでは、事前学習の効果は限定的。
事前学習を用いて得られた解が、パラメータ空間において通常のモデルにより近いことを線形補間によって示した。
この記事が気に入ったらサポートをしてみませんか?