言語モデルの編集に関する論文紹介
論文名
Is Bigger Edit Batch Size Always Better? - An Empirical Study on Model Editing with Llama-3
arXivリンク
https://arxiv.org/pdf/2405.00664
ひとこと要約
Llama-3を用いた言語モデルの編集と層の位置やバッチサイズの関係を調査
メモ
編集手法
前提知識: 編集では、新しい事実を記憶させる「memorization」と、既存の知識を保持する「preservation」の2つが目的関数に組み込まれる。
ROME
単一の知識を厳密に編集
MEMIT
複数の知識を一括して近似的に編集
EMMET
ROMEとMEMITの中間
評価指標
Efficacy Score (ES)
モデルが編集した知識の正答率を測る指標
Paraphrase Score (PS)
編集した内容を別の言葉で言い換えても、モデルが正しく認識できるかを測る指標。汎化性能を測定。
Neighborhood Score (NS)
編集の局所性を測る指標
Composite Score (S)
上記3つの指標をバランスよく反映するための指標。調和平均で計算。
実験
モデルの編集と層の位置について
方法
Llama-3の各層に対して1000件ずつ編集
結果
どの評価指標においても第1層が最も高い編集性能を示すことを確認。
先行研究の知見とは異なる結果であり、モデルアーキテクチャによって最適な編集層が変わる可能性を示唆。
モデルの編集とバッチサイズについて
結果
バッチサイズが大きくなるほど、特にNSの値が大きく低下。
大規模な一括編集が周辺の事実に大きな影響を及ぼし、編集の局所性が失われることを示唆。
ESについては比較的影響が小さく、編集の成功率自体は維持されていました。
逐次編集とバッチ編集について
結果
ES: 逐次編集とバッチ編集で大きな差はない。
PS: 逐次編集の方が高い。
NS:バッチサイズ1024までは逐次編集、バッチサイズ1024以上ではバッチ編集の方が高い。
編集の局所性を維持しつつ大規模な編集を行うためには、ある程度のバッチサイズが必要であることを示唆。
この記事が気に入ったらサポートをしてみませんか?