【論文瞬読】大規模言語モデルの事前学習における知識獲得メカニズムの解明 - 最新研究の知見

2024年6月21日 11:28

こんにちは、みなさん。株式会社AI Nestです。
今回は、大規模言語モデル（LLM）が事前学習中にどのようにして事実の知識を獲得するかについての最新研究を紹介します。この研究は、LLMの振る舞いをより深く理解する上で重要な知見を提供してくれています。

タイトル：How Do Large Language Models Acquire Factual Knowledge During Pretraining?
URL：https://arxiv.org/abs/2406.11813
所属：KAIST, UCL, KT
著者：Hoyeon Chang, Jinho Park, Seonghyeon Ye, Sohee Yang, Youngkyung Seo, Du-Seong Chang, Minjoon Seo

研究の背景

LLMは、GPT-3やPaLMなどに代表される、大規模な言語データを使って事前学習されるトランスフォーマーベースの言語モデルです。これらのモデルは、事前学習中に大量の事実知識を獲得することが知られていますが、その獲得メカニズムについては十分に理解されていませんでした。

この研究では、以下の3つの課題に着目し、様々な条件を変えながら実験的に分析しています。

LLMの事前学習中における事実の知識獲得のメカニズム
事実の知識の効果的な獲得に影響する学習条件
獲得した事実の知識の忘却と、忘却の傾向に影響を与える学習条件

研究の方法

研究チームは、仮想的な事実知識を含むデータセット「FICTIONAL KNOWLEDGE」を作成しました。このデータセットには、現実には存在しない架空の事物に関する記述が含まれています。

次に、「OLMo」という言語モデルの途中のチェックポイントから事前学習を再開し、「FICTIONAL KNOWLEDGE」を挿入しました。挿入方法は、(1)同じ知識を繰り返し挿入する、(2)パラフレーズした知識を挿入する、(3)一度だけ挿入する、の3通りを試しました。

そして、以下の3つの観点で知識獲得のダイナミクスを分析したのです。

暗記：モデルが知識をそのまま記憶できているか
意味的一般化：知識をパラフレーズした表現で理解できているか
構成的一般化：複数の知識を組み合わせて新しい知識を推論できるか

さらに、事前学習のステージ、モデルサイズ、バッチサイズなどの条件を変えて、知識獲得への影響を調べました。

得られた知見

実験の結果、以下のような興味深い知見が得られました。

LLMは事実知識を含むデータを観測するたびに、その知識の確率を少しずつ蓄積することで知識を獲得する。
モデルサイズを大きくすると知識獲得の効果は高まるが、事前学習のステージが進むにつれて効果は改善しない。
獲得した知識の忘却には、学習ステップ数とべき乗則の関係がある。
事前学習データの重複を排除し、バッチサイズを大きくすることで、知識の忘却を抑制できる。

特に、知識獲得が確率の蓄積によって進むことや、忘却がべき乗則に従うことなどは、直感的に理解しやすい説明になっています。これらの知見は、LLMの事前学習中の知識獲得メカニズムを理解する上で重要な手がかりになるでしょう。

LLMの振る舞いへの説明

これらの知見に基づき、研究チームはLLMの振る舞いに対するいくつかの説明を提示しています。

例えば、事前学習データが大きいほどパフォーマンスが向上するのは、より多様な知識を十分な頻度で学習できるからだと考察しています。データが大きいほど、様々な知識が繰り返し登場する機会が増え、確率の蓄積が進むためです。

また、長尾の知識、つまり出現頻度の低い知識の学習が難しいのは、知識の出現頻度が一定の閾値を下回ると忘却が進むためだと説明しています。この閾値を「学習可能性の閾値」と呼んでいます。

さらに、事前学習データの重複を排除することがモデルのパフォーマンス向上につながる理由も、この研究の知見から説明できます。重複データを与えると、モデルは重複した表現の確率を高めるように学習が進むため、知識の一般化が阻害されるのです。

知識獲得の効果（Effectivity）と保持力（Retainability）の測定方法を説明する図

研究の意義と今後の展望

この研究は、LLMの知識獲得メカニズムの理解を深める上で重要な一歩になりました。得られた知見は、より効果的な事前学習手法の開発や、モデルの振る舞いの説明に役立つでしょう。

ただし、この研究では人工的なデータセットを使用しているため、実際の事前学習での知識獲得を完全に再現できているわけではありません。今後は、得られた知見を実際の事前学習データで検証することが求められます。

また、知見に基づくLLMの改善手法の提案も期待されます。例えば、学習可能性の閾値を下げる手法や、重複データを効果的に排除する手法などが考えられるでしょう。

さらに、知識獲得のメカニズムをより理論的に説明することも重要な課題です。この研究では、現象の観察と分析に焦点を当てていましたが、メカニズムの数理的な定式化などにも取り組む必要があります。

まとめ

LLMの事前学習中の知識獲得メカニズムを理解することは、より効果的な学習手法の開発や、モデルの振る舞いの説明につながります。この研究は、その理解を深める上で重要な知見を提供してくれました。

特に、知識獲得が確率の蓄積によって進むことや、忘却がべき乗則に従うことなどは、直感的に理解しやすい説明になっています。また、事前学習データのサイズや重複が知識獲得に与える影響についても、示唆に富む観察が得られました。

今後は、これらの知見を実データで検証し、理論的な説明を深めていくことが求められます。そうすることで、LLMの事前学習中の知識獲得メカニズムの全容が明らかになっていくでしょう。今後の研究が楽しみですね！