In-context Learningの性能調査の論文紹介
論文名
Long-context LLMs Struggle with Long In-context Learning
arXivリンク
https://arxiv.org/pdf/2404.02060.pdf
ひとこと要約
長いIn-context Learningの性能についてベンチマークを作成して調査した。長いIn-context Learningにおいてタスクの難易度が上がるにつれ、LLMのパフォーマンスが大きく低下することが判明。
メモ
実験方法
長いIn-context Learningの性能評価のためにLongICLBenchを作成。様々な難易度のデータセットと評価設定による多角的な評価が狙い。
LongICLBenchを構成するデータセット
GoEmotion: 28のカテゴリーからなる感情分類データセット。各インスタンスは平均28トークン。
BANKING77: 77の意図カテゴリーからなる意図分類データセット。各インスタンスは平均28トークン。
TacRED: 41の関係カテゴリーからなる関係抽出データセット。各インスタンスは平均80トークン。
Few-NERD: 66のエンティティカテゴリーからなるエンティティ認識データセット。各インスタンスは平均61トークン。
DialogRE: 36の関係カテゴリーからなる対話ベースの関係抽出データセット。各インスタンスは平均226トークン。
Discovery: 174のディスコースマーカーからなる談話マーカー分類データセット。各インスタンスは平均61トークン。
評価設定:
各データセットについて、1ラウンドから5ラウンドまでの異なる長さのデモンストレーションを用意。
1ラウンドは各ラベルを1個含み、5ラウンドは各ラベルを5個含みます。
各ラウンドのデモンストレーションの長さは、データセットによって異なる(例:BANKING77は2〜14Kトークン、Discoveryは10〜50Kトークン)。
テストでは各データセットのテストセットから500個のインスタンスをサンプリングし、ラベルタイプに基づいて均等に分布。
評価指標:
エンティティ認識と関係抽出のデータセットには、F1スコアを使用。
その他のデータセットには、正解率を使用。
また、プロンプト内の例における位置がモデルの性能に与える影響も調査。
結果
比較的簡単なBANKING77データセット(文脈長が2〜14Kトークン)では、ほとんどのモデルが例示の増加によって性能が向上。しかし、3ラウンド以降は性能向上が限定的。
より複雑なTacREDとDialogREデータセット(文脈長が20Kトークン前後)では、GPT4-turbo以外のすべてのモデルが途中で性能のピークに到達。入力が長くなると、性能が低下。
最も難易度の高いDiscoveryデータセット(174クラス、1ラウンドで10Kトークン以上)では、GPT4-turboを含むすべてのモデルの性能が低かった
QwenとMistralの性能は、In-contextの例の長さに対してほぼ線形。
Few-shotのI例における位置の分布が、一部のモデルの性能に大きな影響を判明。インスタンスをグループ化すると、ほとんどのモデルの性能が大幅に低下。
通常のFew-shotでは例はランダムに配置されている。例をクラス毎にグループ化すると、ほとんどのモデルの性能が大幅に低下。プロンプトの最後に位置するラベルのインスタンスしか処理できないモデルがあることが判明。一方で、ChatGLM3-6B-32Kのようなモデルは、例の位置が変化しても高い性能を維持。
この記事が気に入ったらサポートをしてみませんか?