見出し画像

データの影響度を逆学習を用いて追跡する論文紹介[NLPコロキウム]

論文名

Unlearning Traces the Influential Training Data of Language Models

arXivリンク

https://arxiv.org/pdf/2401.15241

ひとこと要約

学習済みモデルから学習データ/評価データを逆学習して、データの影響を測る手法を提案。

情報

https://nlp-colloquium-jp.github.io/schedule/2024-07-03_masaru-isonuma/

NLPコロキウムで紹介されています。



メモ

方法

  • 概要

    • 逆学習を用いてモデルのトレーニングデータの影響を追跡。

      • 従来の手法が直接的なデータ除外や複雑な数学的近似に頼っていたのに対し、モデルに特定のデータを「逆学習させる」ことで影響を測定。

  • UnTrac

    • 各トレーニングデータセットを個別に逆学習

  • UnTrac-Inv

    • テストデータセットを逆学習。特定条件下でUnTracと近似。UnTracよりも計算コストが小さい。

実験概要

  • ground truthの設定

    • 「leave-dataset-out」で計算

      • 特定のデータセットを除外してモデルを再トレーニングし、そのモデルのパフォーマンス変化を測定する方法

  • モデル

    • (実験1)

      • T5-XL(3B)

    • (実験2)

      • OPT-125M

  • データセット

    • (実験1)

      • 独自の合成データセット

      • テストデータに対して、類似/非類似&フォーマットが同じ/異なるの4通り作成

    • (実験2)

      • プリトレーニングデータセット: 8つのデータセット(BookCorpus, CC-Stories, CCNewsV2, 5つのPileデータセットのサブセット)

      • テストデータセット: Toxigen, WinoBias, TruthfulQA

  • 比較対象

    • GradDot

    • GradCos

    • HIF

    • TracIn

実験詳細

結果

  • (実験1)UnTracとUnTrac-Invは、出力フォーマットに関わらず、 テストタスクと類似のタスクの影響を高く評価。

    • 表面的な類似性ではなく、タスクの本質的な関連性を正確に捉える能力の示唆

  • (実験2)均衡、不均衡データセットともに既存手法に比べてground truthと最も高い相関


この記事が気に入ったらサポートをしてみませんか?