言語モデルの編集に関する論文紹介

2024年5月12日 00:57

Is Bigger Edit Batch Size Always Better? - An Empirical Study on Model Editing with Llama-3

Llama-3を用いた言語モデルの編集と層の位置やバッチサイズの関係を調査

メモ

前提知識: 編集では、新しい事実を記憶させる「memorization」と、既存の知識を保持する「preservation」の2つが目的関数に組み込まれる。

モデルの編集と層の位置について
- 方法
  - Llama-3の各層に対して1000件ずつ編集
- 結果
  - どの評価指標においても第1層が最も高い編集性能を示すことを確認。
    - 先行研究の知見とは異なる結果であり、モデルアーキテクチャによって最適な編集層が変わる可能性を示唆。
モデルの編集とバッチサイズについて
- 結果
  - バッチサイズが大きくなるほど、特にNSの値が大きく低下。
    - 大規模な一括編集が周辺の事実に大きな影響を及ぼし、編集の局所性が失われることを示唆。
  - ESについては比較的影響が小さく、編集の成功率自体は維持されていました。
逐次編集とバッチ編集について
- 結果
  - ES: 逐次編集とバッチ編集で大きな差はない。
  - PS: 逐次編集の方が高い。
  - NS:バッチサイズ1024までは逐次編集、バッチサイズ1024以上ではバッチ編集の方が高い。
    - 編集の局所性を維持しつつ大規模な編集を行うためには、ある程度のバッチサイズが必要であることを示唆。

この記事が気に入ったらサポートをしてみませんか？