見出し画像

Instruction Pre-Training:事前学習の新手法に関する論文紹介

タイトル

Instruction Pre-Training: Language Models are Supervised Multitask Learners

リンク

https://arxiv.org/pdf/2406.14491

ひとこと要約

学習データに対してインストラクションとレスポンスのペアを加えて事前学習を行うInstruction Pre-Trainingを提案。


メモ

手法

  •  Instruction Pre-Training

    • 通常の生テキストの学習データに加えて、Instruction Synthesizerによってインストラクション-レスポンスのペアを作成し、事前学習する手法

    • ラウンド:インストラクション-レスポンスのペアを作成するプロセス

      • ラウンドを重ねることで、前のラウンドで作成したインストラクション-レスポンスのペアをもとに、インストラクション-レスポンスのペアを作成

実験

  • Instruction Pre-Trainingの設定

    • 共通

      • Instruction Synthesizer

        • ファインチューニング済みのMistral-7Bv0.1

    • 0からの事前学習

      • 学習データに1つのテキストにつき、約5つのインストラクション-レスポンスのペアを1回作成

    • ドメイン適応学習

      • インストラクション-レスポンスのペアを2回生成。(生テキストの分量は1/3)

  • 比較対象

    • 従来の事前学習: Vanilla Pre-Training

    • Instruction Pre-Training

    • Mix Pre-Training(上記二つの混合)

  • モデル

    • 0からの事前学習

      • Mistral 500M, 1.3B

    • ドメイン適応学習

      • Llama3-8B

  • データセット

    • 0からの事前学習

      • RefinedWebから200Mのテキスト(約100Bトークン)

    • ドメイン適応学習

      • 生物医学ドメイン(PubMed Abstracts)

      • 金融ドメイン(financial news)

  • Instruction Synthesizerの分析

    • ラウンド回数(ラウンド2,3)の比較

    • Instruction Synthesizerとルールベースの比較

結果

  • Instruction Pre-Trainingの有効性

    • 0からの事前学習において、Instruction Pre-Trainingを用いた方がVanilla Pre-TrainingよりもARC-eやMMLUなどの精度が高い

    • ドメイン適応学習において、Instruction Pre-Trainingの方がPubMedQAやConvFinQAの精度が高い

    • Instruction TuningにおいてInstruction Pre-Training済みモデルの方が性能向上が速かった(Instructio Tuningのステップ数120以下)

  • Instruction Synthesizerの分析

    • インストラクション-レスポンスのペアを2回生成の場合は、ルールベースの手法およびインストラクション-レスポンスのペアを1回生成したケースよりも、各評価指標の平均スコアが高い

    • (金融ドメインの方が差が顕著のため、提案手法の有効性をより強く示す)

この記事が気に入ったらサポートをしてみませんか?