【論文要約】MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning【自分用メモ】

2024年5月23日 19:53

今回は『MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning』というLoRAを発展させた手法を提案した以下の論文を要約する。論文のpdfをGemini Advanced(Gemini 1.5 pro)に渡して要約させた。

研究の目的と背景

目的

本研究の目的は、大規模言語モデル(LLM)の効率的なファインチューニング手法であるLoRAの限界を分析し、その問題点を克服する新しい手法MoRAを提案することです。

LoRAは、LLMの特定のタスクへの適応を少ないパラメータ更新で実現する手法として広く利用されています。しかし、その低ランク更新の仕組みにより、LLMが新しい知識を効果的に学習し記憶する能力が制限される可能性があるという問題が明らかになりました。本研究では、この問題を解決するために、LoRAと同じ数の学習可能パラメータを維持しながら、高ランク更新を実現するMoRAを提案します。これにより、LLMの知識と能力を向上させる必要がある複雑な推論タスクや継続的な事前学習タスクにおいて、LoRAよりも優れた性能を発揮することが期待されます。

背景

大規模言語モデルの登場により、自然言語処理タスクにおいて目覚ましい成果が得られています。しかし、これらのモデルは非常に大規模であり、特定のタスクに適応させるためには、パラメータ効率の良いファインチューニング（PEFT）が不可欠です。PEFTは、モデルパラメータの一部のみを変更することで、計算資源の節約とモデルの効率的な展開を可能にします。

LoRAは、PEFTの中でも代表的な手法であり、低ランク行列を用いてパラメータを更新することで効率的な学習を実現します。しかし、低ランク更新は新しい知識の学習と記憶に限界があることが明らかになりました。この限界は、LLMが複雑な推論やドメイン固有の知識の獲得を必要とするタスクにおいて、LoRAの性能を低下させる要因となっています。

本研究では、この低ランク更新の限界を克服するために、MoRAを提案します。MoRAは、LoRAと同じ数の学習可能パラメータを維持しながら、高ランク更新を実現する新しい手法です。具体的には、MoRAは、入力次元を減らし、出力次元を増やすための非パラメータ演算子を導入することで、正方行列を用いた高ランク更新を可能にします。これらの演算子は、重みをLLMにマージできることを保証するため、MoRAはLoRAと同様にデプロイすることができます。

本研究は、LLMのファインチューニングにおける新たな可能性を切り拓くものであり、LLMの更なる発展に貢献することが期待されます。

使用した手法の概要

本研究では、大規模言語モデル(LLM)の効率的なファインチューニング手法であるLoRAの限界を分析し、その問題点を克服する新しい手法MoRAを提案しています。以下に、これらの手法の概要とその比較について説明します。

LoRA (Low-Rank Adaptation)

LoRAは、LLMのファインチューニングにおいて、パラメータの更新を低ランク行列に制限することで、学習可能なパラメータ数を大幅に削減し、効率的な学習を可能にする手法です。具体的には、事前学習済みの重み行列$${W_0}$$に対して、2つの低ランク行列$${A}$$と$${B}$$を用いて、重み更新$${\Delta W}$$を以下のように計算します。

$$
h = W_0x + \Delta Wx = W_0x + BAx
$$

ここで、$${A \in R^{r \times k}}$$、$${B \in R^{d \times r}}$$は低ランク行列であり、$${r}$$はランクを表します。$${\Delta W = BA}$$となるため、`rank($${\Delta W}$$) ≤ r`となります。LoRAは、$${r << min(d, k)}$$という条件下で、低ランク更新を実現します。

MoRA (High-Rank Adaptation)

MoRAは、LoRAと同じ数の学習可能パラメータを維持しながら、高ランク更新を実現する手法です。これにより、LoRAでは困難であった新しい知識の学習と記憶を効率的に行うことを目指します。MoRAは、正方行列$M$を用いて重み更新を計算します。

$$
h = W_0x + f_{decomp}(Mf_{comp}(x))
$$

ここで、$${f_{comp}: R^k \rightarrow R^{\hat{r}}}$$は入力次元を削減する関数、$${f_{decomp}: R^{\hat{r}} \rightarrow R^d}$$は出力次元を増加させる関数です。これらの関数は、非パラメータ演算子であり、線形時間で実行され、対応する関数$${f'{comp}: R^{\hat{r} \times \hat{r}} \rightarrow R^{\hat{r} \times k}}$$と$${f'{decomp}: R^{\hat{r} \times k} \rightarrow R^{d \times k}}$$を持ちます。これにより、$${M}$$を$${\Delta W}$$にロスレスで変換することができます。

手法の比較

| 手法 | ランク更新 | 学習可能パラメータ数 | メモリ効率 | 新知識の学習・記憶 |
|---|---|---|---|---|
| LoRA | 低ランク | 少 | 高 | 不得意 |
| MoRA | 高ランク | 少 | 高 | 得意 |

LoRAとMoRAは、どちらもパラメータ効率の良いファインチューニング手法であり、少ない学習可能パラメータ数で効率的な学習を実現します。しかし、LoRAは低ランク更新であるため、新しい知識の学習と記憶が苦手であるのに対し、MoRAは高ランク更新を実現することで、この問題を克服しています。

MoRAにおける非パラメータ演算子

MoRAでは、以下の4種類の非パラメータ演算子を用いて、入力次元を削減し、出力次元を増加させることができます。

切り捨てと追加: 入力の次元を切り捨て、その後、対応する次元にゼロベクトルを追加します。
行と列の共有: $${M}$$の行と列を共有することで、より効率的な圧縮と解凍を実現します。
切り離し: 入力をリシェイプすることで、入力情報を保持します。
回転: 回転演算子を入力に組み込むことで、$${M}$$の表現力を高めます。

これらの演算子は、タスクやモデルの規模に応じて使い分けることができます。

本研究では、これらの手法を用いて、LLMのファインチューニングにおける高ランク更新の有効性を示しました。MoRAは、LoRAと比較して、継続的な事前学習やメモリタスクにおいて優れた性能を発揮しました。

使用した手法の概要と背景にあるアイデア

LoRA (Low-Rank Adaptation)

手法の概要

LoRAは、大規模言語モデル(LLM)を特定のタスクに適応させるファインチューニング手法です。LLMの全パラメータを更新するFull Fine-Tuning (FFT)とは異なり、LoRAはモデルパラメータの一部のみを変更します。具体的には、事前学習済みの重み行列$W_0$に、新たに学習可能な低ランク行列の積$${BA}$$を加算する形でパラメータを更新します。

$$
h = W_0x + \Delta Wx = W_0x + BAx
$$

ここで、$${A}$$と$${B}$$は学習可能な低ランク行列です。LoRAは、この低ランク近似によって、学習可能なパラメータ数を大幅に削減し、効率的なファインチューニングを可能にします。

背景にあるアイデア

LoRAの背景にあるアイデアは、大規模な言語モデルを効率的にファインチューニングするために、パラメータの更新を低ランク行列に制限するというものです。このアイデアは、行列分解の概念に基づいており、元の重み行列を2つの小さな行列の積で近似することで、パラメータ数を削減し、計算効率を向上させます。

MoRA (High-Rank Updating for Parameter-Efficient Fine-Tuning)

手法の概要

MoRAは、LoRAの低ランク更新の限界を克服するために提案された手法です。LoRAと同じ数の学習可能パラメータを維持しながら、高ランク更新を実現します。MoRAは、正方行列$${M}$$と、入力次元を削減する関数$${f_{comp}}$$、出力次元を増加させる関数$${f_{decomp}}$$を用いて、重み更新を計算します。

$$
h = W_0x + f_{decomp}(Mf_{comp}(x))
$$

$${f_{comp}}$$と$${f_{decomp}}$$は、非パラメータ演算子であり、線形時間で実行され、対応する関数$${f'{comp}}$$と$${f'{decomp}}$$を持ちます。これにより、$${M}$$を$${\Delta W}$$にロスレスで変換し、LoRAと同様にファインチューニング後のモデルをマージすることができます。

背景にあるアイデア

MoRAの背景にあるアイデアは、LoRAの低ランク更新の制限を克服するために、正方行列と非パラメータ演算子を用いて高ランク更新を実現するというものです。このアイデアは、低ランク更新では新しい知識の学習と記憶に限界があるという問題意識から生まれました。MoRAは、LoRAと同じ数の学習可能パラメータを維持しながら、より高いランクの更新を可能にすることで、この問題を解決します。具体的には、入力次元と出力次元を調整するための非パラメータ演算子を導入することで、正方行列を用いた高ランク更新を実現しています。

手法間の関係性

MoRAは、LoRAの拡張として捉えることができます。LoRAは、低ランク行列を用いてパラメータを更新しますが、MoRAは、正方行列と非パラメータ演算子を用いて、より高いランクの更新を可能にします。これにより、MoRAは、LoRAの利点を維持しながら、その限界を克服しています。

論文内の数式と手法の関連

論文で提示されている数式とその手法の関係性について解説します。

数式1: LoRAにおける重み更新

$$
h = W_0x + \Delta W x = W_0x + BAx
$$

意味と役割: この数式は、LoRAにおける重みの更新方法を表しています。LLMの事前学習済みパラメータ行列$${W_0}$$、入力$${x}$$、およびLoRAで導入される低ランク行列$${A}$$と$${B}$$を用いて、隠れ層の出力$${h}$$を計算します。
手法との対応: この数式は、LoRAの中心的なアイディアである低ランク適応を表しています。
実装と動作への寄与: この数式に基づいて、LoRAはLLMの重み行列の一部を、低ランク行列の積で近似することで、学習可能なパラメータ数を削減し、効率的なファインチューニングを実現します。
パラメータと変数:
- $${W_0}$$: LLMの事前学習済みの重み行列
- $${x}$$: 入力
- $${\Delta W}$$: 重み更新
- $${A}$$と$${B}$$: LoRAで導入される低ランク行列

数式2: MoRAにおける重み更新

$$
h = W_0x + f_{decomp}(Mf_{comp}(x))
$$

意味と役割: この数式は、MoRAにおける重みの更新方法を表しています。LLMの事前学習済みパラメータ行列$${W_0}$$、入力$${x}$$、MoRAで導入される正方行列$${M}$$、および入力次元を削減する関数$${f_{comp}}$$と出力次元を増加させる関数$${f_{decomp}}$$を用いて、隠れ層の出力$${h}$$を計算します。
手法との対応: この数式は、MoRAの中心的なアイディアである高ランク更新を表しています。
実装と動作への寄与: この数式に基づいて、MoRAはLLMの重み行列の一部を、正方行列と非パラメータ演算子を用いて更新することで、高ランク更新を実現します。
パラメータと変数:
- $${W_0}$$: LLMの事前学習済みの重み行列
- $${x}$$: 入力
- $${M}$$: MoRAで導入される正方行列
- $${f_{comp}}$$: 入力次元を削減する関数
- $${f_{decomp}}$$: 出力次元を増加させる関数

数式3: MoRAにおける重みマージの条件

$$
f_{decomp}(Mf_{comp}(x)) = \Delta W x, \forall x \in R^k
$$

意味と役割: この数式は、MoRAにおいて学習後の重み行列$M$を元のLLMにマージするための条件を表しています。
手法との対応: この数式は、MoRAがLoRAと同様に、ファインチューニング後にモデルをマージできることを保証します。
実装と動作への寄与: この数式が成り立つように$${f_{comp}}$$と$${f_{decomp}}$$を設計することで、MoRAは学習後の重み行列を元のLLMに統合し、推論時のオーバーヘッドを回避できます。
パラメータと変数:
- $${\Delta W}$$: 重み更新
- $${x}$$: 入力

数式4から数式11: 非パラメータ演算子

数式4から数式11は、MoRAで利用される様々な非パラメータ演算子($${f_{comp}}$$, $${f_{decomp}}$$, $${f'{comp}}$$, $${f'{decomp}}$$)の具体的な実装方法を表しています。これらの演算子は、入力次元を削減し、出力次元を増加させる役割を担い、MoRAの高ランク更新を実現するために不可欠な要素です。

導出過程と理論的背景

数式1と数式2は、それぞれLoRAとMoRAにおける重み更新の基本的な考え方を表しており、特定の理論的背景に基づいて導出されたものではありません。数式3は、MoRAの重み行列を元のLLMにマージするための条件であり、この条件を満たすように非パラメータ演算子を設計することが重要です。数式4から数式11は、非パラメータ演算子の具体的な実装方法を示しており、これらの演算子は、行列の圧縮や回転などの操作を通じて、入力次元と出力次元の変換を行います。

結果への影響

MoRAにおける数式は、高ランク更新を実現するための重要な要素であり、そのパラメータ設定や変更は、手法の性能に大きな影響を与えます。特に、非パラメータ演算子の選択や設計は、MoRAの性能を左右する重要な要素となります。適切な演算子を選択することで、MoRAは、LoRAよりも効率的に新しい知識を学習し、記憶することができます。

了解いたしました。
以前の回答で図と表の数を間違えていました。訂正し、論文に記載されている5つの図と4つの表について説明します。

図表の説明

図1: LoRAとMoRAの概要

内容: LoRAとMoRAの手法の概要を図示しています。同じ数の学習可能パラメータの下で、LoRAは2つの低ランク行列を使用するのに対し、MoRAは1つの正方行列を使用します。また、MoRAは入力次元を減らし、出力次元を増やすための非パラメータ演算子を使用します。
目的: LoRAとMoRAの構造の違いを視覚的に示し、MoRAがどのように高ランク更新を実現するかを説明することを目的としています。
構成要素:
- W：LLMからの固定重み
- A、B：LoRAにおける学習可能な低ランク行列
- M：MoRAにおける学習可能な正方行列
- 灰色部分：入力次元を減らし、出力次元を増やすための非パラメータ演算子
- r：LoRAとMoRAにおけるランク
主要なメッセージ: MoRAは、LoRAと同じ数の学習可能パラメータで、より高いランクの更新を実現できることを示しています。

図2: UUIDペア記憶におけるFFTとLoRAの性能

内容: ファインチューニングを通じてUUIDペアを記憶するタスクにおける、FFTとLoRAの性能を比較したグラフです。横軸は学習ステップ数、縦軸は損失を表しています。
目的: LoRAとFFTの学習曲線を比較し、低ランク更新が新しい知識の記憶に与える影響を分析することを目的としています。
構成要素:
- 横軸：学習ステップ数
- 縦軸：損失
- 線：FFTと異なるランクのLoRAの学習曲線
主要な結果: LoRAは、FFTと比較して新しい知識の記憶が苦手であり、ランクを上げても依然として差があることを示しています。

図3: UUIDペア記憶におけるLoRAとMoRAの性能

内容: UUIDペア記憶タスクにおける、LoRAとMoRAの性能を比較したグラフです。横軸は学習ステップ数、縦軸は損失を表しています。
目的: LoRAとMoRAの学習曲線を比較し、MoRAの高ランク更新が新しい知識の記憶に与える影響を分析することを目的としています。
構成要素:
- 横軸：学習ステップ数
- 縦軸：損失
- 線：異なるランクのLoRAとMoRAの学習曲線
主要な結果: MoRAは、同じ数の学習可能なパラメータを持つLoRAよりも優れた性能を示し、高ランク更新の有効性を示しています。

図4: 事前学習における損失

内容: 250Mモデルと1.3Bモデルの事前学習における、LoRA、MoRA、ReLoRA、ReMoRAの損失を比較したグラフです。横軸は学習ステップ数、縦軸は損失を表しています。
目的: 事前学習タスクにおける各手法の性能を比較し、MoRAとReMoRAの高ランク更新とマージ戦略の有効性を示すことを目的としています。
構成要素:
- 横軸：学習ステップ数
- 縦軸：損失
- 線：LoRA、MoRA、ReLoRA、ReMoRAの学習曲線
主要な結果: MoRAとReMoRAは、LoRAとReLoRAよりも低い損失を示し、高ランク更新とマージ戦略の有効性を示しています。

図5: ΔWにおける有意な特異値の数

内容: 250Mの事前学習モデルにおける、LoRA、MoRA、ReLoRA、ReMoRAの学習された$${\Delta W}$$の有意な特異値（0.1を超える特異値）の平均数を示した棒グラフです。
目的: 各手法の高ランク更新の効果を定量的に示し、MoRAとReMoRAが$${\Delta W}$$のランクを効果的に増加させることを示すことを目的としています。
構成要素:
- 横軸：手法
- 縦軸：有意な特異値の平均数
- 棒：各手法の有意な特異値の平均数
主要な結果: MoRAとReMoRAは、LoRAとReLoRAよりも大幅に多い有意な特異値を持ち、高ランク更新の効果を示しています。

表1: ファインチューニングタスクにおける性能比較

内容: 命令チューニング、数学的推論、継続的な事前学習の3つのタスクにおける、FFT、LoRA、LoRAの亜種、MoRAの性能を比較しています。
目的: 異なるタスクにおける各手法の性能を比較し、MoRAの有効性を示すことを目的としています。
構成要素:
- 行：ファインチューニング手法
- 列：タスクと評価指標
- 数値：各手法の性能
主要な結果: MoRAは、命令チューニングと数学的推論タスクにおいてLoRAと同等の性能を示し、継続的な事前学習タスクにおいてLoRAを上回る性能を示しました。

表2: UUIDペア記憶タスクにおける文字レベル精度

内容: 300、500、700、900回の学習ステップにおける、FFT、LoRA、MoRAのUUIDペア記憶タスクの文字レベル精度を比較しています。
目的: 異なる学習ステップにおける各手法のUUIDペア記憶性能を比較し、MoRAの有効性を示すことを目的としています。
構成要素:
- 行：ファインチューニング手法
- 列：学習ステップ
- 数値：各手法の文字レベル精度
主要な結果: MoRAは、LoRAよりも少ない学習ステップでUUIDペアを記憶できることを示しています。

表3: C4検証データセットにおけるパープレキシティ

内容: 250Mモデルと1.3Bモデルの事前学習における、LoRA、MoRA、ReLoRA、ReMoRAのパープレキシティ（文章の複雑さを表す指標）を比較しています。
目的: 事前学習タスクにおける各手法の性能を比較し、MoRAとReMoRAの高ランク更新とマージ戦略の有効性を示すことを目的としています。
構成要素:
- 行：手法
- 列：モデルサイズ
- 数値：各手法のパープレキシティ
主要な結果: MoRAとReMoRAは、LoRAとReLoRAよりも低いパープレキシティを示し、高ランク更新とマージ戦略の有効性を示しています。

表4: 圧縮・解凍関数の影響

内容: 異なる圧縮・解凍関数を用いた場合の、GSM8KにおけるMoRAの性能を比較しています。
目的: 異なる圧縮・解凍関数がMoRAの性能に与える影響を分析することを目的としています。
構成要素:
- 行：圧縮・解凍関数
- 列：ランク
- 数値：GSM8KにおけるMoRAの性能
主要な結果: 切り捨てによる情報損失が最も大きく、性能が低いのに対し、回転演算子は入力情報を区別するのに役立つ回転情報を組み込むことで、切り離しよりも効率的であることが示されました。

この記事が気に入ったらサポートをしてみませんか？