Instruction Pre-Training:事前学習の新手法に関する論文紹介
タイトル
Instruction Pre-Training: Language Models are Supervised Multitask Learners
リンク
https://arxiv.org/pdf/2406.14491
ひとこと要約
学習データに対してインストラクションとレスポンスのペアを加えて事前学習を行うInstruction Pre-Trainingを提案。
メモ
手法
Instruction Pre-Training
通常の生テキストの学習データに加えて、Instruction Synthesizerによってインストラクション-レスポンスのペアを作成し、事前学習する手法
ラウンド:インストラクション-レスポンスのペアを作成するプロセス
ラウンドを重ねることで、前のラウンドで作成したインストラクション-レスポンスのペアをもとに、インストラクション-レスポンスのペアを作成
実験
Instruction Pre-Trainingの設定
共通
Instruction Synthesizer
ファインチューニング済みのMistral-7Bv0.1
0からの事前学習
学習データに1つのテキストにつき、約5つのインストラクション-レスポンスのペアを1回作成
ドメイン適応学習
インストラクション-レスポンスのペアを2回生成。(生テキストの分量は1/3)
比較対象
従来の事前学習: Vanilla Pre-Training
Instruction Pre-Training
Mix Pre-Training(上記二つの混合)
モデル
0からの事前学習
Mistral 500M, 1.3B
ドメイン適応学習
Llama3-8B
データセット
0からの事前学習
RefinedWebから200Mのテキスト(約100Bトークン)
ドメイン適応学習
生物医学ドメイン(PubMed Abstracts)
金融ドメイン(financial news)
Instruction Synthesizerの分析
ラウンド回数(ラウンド2,3)の比較
Instruction Synthesizerとルールベースの比較
結果
Instruction Pre-Trainingの有効性
0からの事前学習において、Instruction Pre-Trainingを用いた方がVanilla Pre-TrainingよりもARC-eやMMLUなどの精度が高い
ドメイン適応学習において、Instruction Pre-Trainingの方がPubMedQAやConvFinQAの精度が高い
Instruction TuningにおいてInstruction Pre-Training済みモデルの方が性能向上が速かった(Instructio Tuningのステップ数120以下)
Instruction Synthesizerの分析
インストラクション-レスポンスのペアを2回生成の場合は、ルールベースの手法およびインストラクション-レスポンスのペアを1回生成したケースよりも、各評価指標の平均スコアが高い
(金融ドメインの方が差が顕著のため、提案手法の有効性をより強く示す)
この記事が気に入ったらサポートをしてみませんか?