【論文瞬読】大規模言語モデルの可能性を広げるMany-Shot In-Context Learning

2024年4月20日 22:04

こんにちは！株式会社AI Nestです。今日は、大規模言語モデル(LLM)の新しい学習方式である「Many-Shot In-Context Learning」について、最新の研究を紹介したいと思います。

タイトル：Many-Shot In-Context Learning
URL：https://arxiv.org/abs/2404.11018
所属：Google DeepMind
著者：Rishabh Agarwal, Avi Singh, Lei M. Zhang, Bernd Bohnet, Stephanie Chan, Ankesh Anand, Zaheer Abbas, Azade Nova, John D. Co-Reyes, Eric Chu, Feryal Behbahani, Aleksandra Faust, Hugo Larochelle

In-Context Learning (ICL)とは？

In-Context Learning (ICL)とは、LLMが推論時に例示されたデモンストレーションから新しいタスクを学習する能力のことです。つまり、事前学習済みのLLMに対して、そのタスクを解くための例を与えるだけで、新しいタスクを学習させることができるのです。しかも、モデルの重みを更新する必要はありません。

従来のICLは、数ショットのデモンストレーションを使用するfew-shot ICLが主流でした。しかし、最近の研究では、大量のデモンストレーションを使用するmany-shot ICLへのスケールアップが注目されています。

Many-Shot ICLの威力

Agarwal et al.の論文「Many-Shot In-Context Learning」では、few-shotからmany-shotへICLをスケールアップすることで、様々なタスクでパフォーマンスが大幅に向上することが示されました。

研究チームは、機械翻訳、要約、プランニング、コード検証、数学的問題解決、科学的QA、アルゴリズム的推論など、多岐にわたるタスクでmany-shot ICLの有効性を実証しました。これにより、many-shot ICLがLLMの汎用性を高める有望なアプローチであることが示唆されたのです。

Figure1. 複数のタスクにおける多ショット学習と多ショット学習（ICL）の比較。多ショット学習は多ショットICLよりも一貫した性能向上を示す。この性能向上は、逐次パリティ予測や線形分類のような難しい非自然言語タスクにおいて特に顕著である。各タスクの棒の内側に、多ショットICLで最も成績の良かったショットの数を示す。少数ショットICLについては、ベンチマークで使用される典型的なショット数、例えばMATHの4ショット、またはGPT-3のコンテキスト長2048トークン未満のテストしたものの中で最長のプロンプトを使用する。推論指向のタスク、すなわちMATH、GSM8K、BBH、およびGPQAでは、人間が生成した思考の連鎖の根拠を使用する。翻訳については、英語からクルド語へのFLORES-MTの結果を報告し、要約はXLSumを使用し、MATHはMATH500テストセットに対応し、感情分析の結果は意味的に無関係なラベルで報告する。詳細は§3、§4、§5を参照のこと。

Figure 1は、様々なタスクにおけるmany-shot ICLとfew-shot ICLのパフォーマンス比較を示しています。多くのタスクで、many-shot ICLがfew-shot ICLを大きく上回っていることが分かります。

Figure2. 各タスクでテストされたベストパフォーマンと最大ショット数のコンテキスト長。横の破線はGPT-3（2048トークン）のコンテキスト長を示し、これはLLMの文献でテストされた典型的な少数ショットのプロンプトの代表である。いくつかのタスクにおいて、最も良い結果を出すショットは、テストした最大ショット数に対応することが観察された。いくつかのタスク（例：コード検証、プランニング）では、あるショット数を超えるとパフォーマンスがわずかに低下することが観察された。

Figure 2は、各タスクにおいて最適なショット数と最大ショット数を示しています。多くのタスクで、最適なパフォーマンスを達成するには数百から数千のショットが必要であることが分かります。

ヒューマンデータへの依存を軽減するアプローチ

Many-shot ICLでは大量のデモンストレーションが必要となりますが、高品質のヒューマンデータを大量に用意するのは容易ではありません。そこで、研究チームはヒューマンデータへの依存を軽減するために、2つの斬新なアプローチを提案しました。

1つ目は「Reinforced ICL」です。これは、ヒューマンの解答に代えてモデル生成の解答を使用する方法です。2つ目は「Unsupervised ICL」で、問題のみをプロンプトとして使用します。

Figure7. 問題解決のための多ショット強化ICLと教師なしICLは、一般に、真実のMATH解を用いたICLを上回る。MATH（左）棒グラフは、MATH500テストセットにおける5つのランダムシードの平均性能を示している。各ランダムシード（ドットで示す）は、プロンプト内のグランドトゥルースまたはモデル生成解（もしあれば）と共に、異なる問題のサブセットに対応する。GSM8Kに転送。(右) MATHから得られたプロンプトは、500の問題を含むGSM8Kテストスプリットにうまく転送されることがわかる。多ショットICLを用いた我々の結果は、MATH500で55.7%、GSM8Kで90.6%のテスト精度を得た4ショットMinervaプロンプトを上回った。

驚くべきことに、Figure 7に示すように、推論・問題解決タスクにおいて、これらのアプローチがヒューマンデータを用いたfew-shot ICLを上回る性能を示したのです。データ収集コストの観点から、非常に実用的な知見だと言えるでしょう。

Many-Shot ICLがもたらす可能性

研究チームは、many-shot ICLの特性解析も行いました。

Figure10. メニーショットICLによる事前トレーニングバイアスの克服。(左）多ショットICLはラベルの反転を克服する：センチメント分析のテスト精度は通常、トレーニングショットが増えるほど向上する。反転した抽象的なラベルは最終的にデフォルトラベルの性能に近づく。(右）バイアスを克服する確信度の変化。裏返されたラベルと抽象的なラベルの場合、予測されたセンチメントラベルに対するモデルの信頼度は、最初は低下し、その後、トレーニングショットが増えるにつれて急激に増加し、同じような値になります。詳細は§5.1を参照。

Figure 10に示すように、many-shot ICLにより、事前学習バイアスの克服が可能になることが明らかになりました。これは、LLMの適用可能性を大きく広げる発見だと言えます。事前学習データとは異なるドメインへの適応や、より抽象的なタスクへの対応が可能になるかもしれません。

今後の展望と課題

Many-shot ICLは、LLMの汎用性と実用性を高める上で重要な役割を果たすと期待されます。しかし、現時点では単一のLLM (Gemini 1.5 Pro)のみでの評価にとどまっているため、他のLLMでの追試が望まれます。

また、パフォーマンス低下のメカニズムなど、まだ解明すべき理論的な問題もあります。今後、様々なLLMでのmany-shot ICLの評価や、理論面での解明が進むことを期待しましょう。

まとめ

Many-shot ICLは、LLMの可能性を大きく広げる革新的なアプローチです。多岐にわたるタスクでその有効性が示され、ヒューマンデータへの依存を軽減する方法も提案されました。

今後、many-shot ICLの研究が進むことで、LLMがより汎用的で実用的なツールへと進化していくことでしょう。AIの可能性がさらに広がる、エキサイティングな時代が到来しています。