データの影響度を逆学習を用いて追跡する論文紹介[NLPコロキウム]
論文名
Unlearning Traces the Influential Training Data of Language Models
arXivリンク
https://arxiv.org/pdf/2401.15241
ひとこと要約
学習済みモデルから学習データ/評価データを逆学習して、データの影響を測る手法を提案。
情報
https://nlp-colloquium-jp.github.io/schedule/2024-07-03_masaru-isonuma/
NLPコロキウムで紹介されています。
メモ
方法
概要
逆学習を用いてモデルのトレーニングデータの影響を追跡。
従来の手法が直接的なデータ除外や複雑な数学的近似に頼っていたのに対し、モデルに特定のデータを「逆学習させる」ことで影響を測定。
UnTrac
各トレーニングデータセットを個別に逆学習
UnTrac-Inv
テストデータセットを逆学習。特定条件下でUnTracと近似。UnTracよりも計算コストが小さい。
実験概要
ground truthの設定
「leave-dataset-out」で計算
特定のデータセットを除外してモデルを再トレーニングし、そのモデルのパフォーマンス変化を測定する方法
モデル
(実験1)
T5-XL(3B)
(実験2)
OPT-125M
データセット
(実験1)
独自の合成データセット
テストデータに対して、類似/非類似&フォーマットが同じ/異なるの4通り作成
(実験2)
プリトレーニングデータセット: 8つのデータセット(BookCorpus, CC-Stories, CCNewsV2, 5つのPileデータセットのサブセット)
テストデータセット: Toxigen, WinoBias, TruthfulQA
比較対象
GradDot
GradCos
HIF
TracIn
実験詳細
結果
(実験1)UnTracとUnTrac-Invは、出力フォーマットに関わらず、 テストタスクと類似のタスクの影響を高く評価。
表面的な類似性ではなく、タスクの本質的な関連性を正確に捉える能力の示唆
(実験2)均衡、不均衡データセットともに既存手法に比べてground truthと最も高い相関
この記事が気に入ったらサポートをしてみませんか?