【論文瞬読】巨大言語モデルの謎を解く？算数でスキル合成の秘密に迫る！

2024年6月6日 16:42

こんにちは！株式会社AI Nestです。
今回は、AI界隈で話題沸騰中の大規模言語モデル（LLM）について、最新の研究論文をベースに解説していきます。特に今回は、LLMがどのように新しいスキルを学習し、それを組み合わせて複雑なタスクをこなすのか、その謎に迫る研究をご紹介します。論文のタイトルは、「Learning to grok: Emergence of in-context learning and skill composition in modular arithmetic tasks」です。ちょっと難しそうに聞こえますが、安心してください。一緒に紐解いていきましょう！

タイトル：Learning to grok: Emergence of in-context learning and skill composition in modular arithmetic tasks
URL：https://arxiv.org/abs/2406.02550
所属：Condensed Matter Theory Center, University of Maryland, College Park, Department of Physics, University of Maryland, College Park, Meta AI
著者：Tianyu He, Darshil Doshi, Aritra Das, Andrey Gromov

LLMの驚異的な能力：未知のタスクも解決！？

皆さんはChatGPTなどのLLMに触れたことはありますか？LLMは、質問応答や翻訳、文章生成など、様々なタスクをこなすことができます。驚くべきことに、LLMは、訓練データに含まれていない未知のタスクを解決できる能力を持っているんです。例えば、足し算のやり方を教わったLLMが、掛け算のような新しい計算方法を自分で発見する、そんなSFのようなことが実際に起こりうるんです！

スキル合成の秘密：文脈内学習と組み合わせ技

では、LLMはどのように未知のタスクを学習するのでしょうか？その秘密は、「文脈内学習」と「スキル合成」という2つのキーワードにあります。

文脈内学習とは、LLMがタスクの例をいくつか見るだけで、そのタスクのルールを理解し、実行できるようになる能力です。
スキル合成とは、LLMがすでに学習した複数の簡単なスキルを組み合わせて、より複雑なタスクを解決する能力です。例えるなら、料理の基礎を学んだシェフが、その知識を組み合わせて新しいレシピを生み出すようなものです。

モジュラー算術でスキル合成を検証

今回の論文では、モジュラー算術という特殊な算数タスクを使って、LLMのスキル合成能力を検証しています。モジュラー算術とは、簡単に言うと、ある数で割った余りを計算する算術です。例えば、7で割った余りを考える世界では、10は3と同じになります（どちらも7で割ると3余るため）。

この論文の著者たちは、z=ax+by(mod p) という線形モジュラー関数を学習するタスクをLLMに与えました。xとyが入力、zが出力、aとbがタスクを定義する係数、pが割る数（法）です。

a = 1, b = 2, p = 7 の場合、つまり、zは「xに1を足して、yに2を足した数を7で割った余り」となります。LLMは、例をいくつか見て、a, b, pの値を推測し、新しいxとyの値が与えられたときにzの値を予測する必要があります。

実験結果：タスクが増えると未知の問題も解けるように！

実験の結果、事前学習で与えるタスクの数が増えるほど、LLMが未知のモジュラー算術タスクを解けるようになることがわかりました。これは、LLMがスキル合成によって新しいタスクを解決できることを示唆しています。図3は、この現象を視覚的に示しています。

さらに、モデルの深さ（層の数）やタスクの難易度も、LLMの汎化能力に影響を与えることが明らかになりました。モデルが深くなるほど、ある程度のタスク数をこなすと未知のタスクにも対応できるようになりますが、訓練しすぎるとその能力が失われるという興味深い現象も見られました。

モデルの解釈可能性：脳の中身を覗いてみる

研究ではさらに、モデルが学習した内容を解釈する試みも行われました。その結果、モデルは、モジュラー算術タスクを解くために、非常に構造化された表現を学習していることがわかりました。これは、LLMが単にパターンを暗記しているのではなく、ある種のアルゴリズムを学習している可能性を示唆しています。図1 (d) と (e) は、モデルが学習した表現の一例を示しています。

まとめ：LLMのさらなる可能性に期待！

今回の研究は、LLMがどのように新しいスキルを学習し、それを組み合わせて複雑なタスクをこなすのか、そのメカニズムの一端を明らかにしました。LLMのスキル合成能力は、今後のAI開発において非常に重要な要素となるでしょう。例えば、様々なタスクをこなせるAIアシスタントや、新しい問題を自分で解決できるAIロボットなど、LLMの応用範囲は無限に広がっています。今後のLLM研究の進展に、ますます期待が高まりますね！