[arXiv読解メモ] 潜在変数推論による思考連鎖のトレーニング Training Chain-of-Thought via Latent-Variable Inference

はじめに

教えていただいた論文の読解メモです。

私なりの理解

殆ど真面目に読んでいないので、間違っていたらすみません。

Training Chain-of-Thought を促すためのデータセットの自動生成

  1. 「質問」ー「正解」ペアを準備

  2. 当該問題の「根拠」となる文章をLLMで生成

  3. 「質問」ー「根拠」から正解を推論できるかを検証

  4. 正解なら、「質問」ー「根拠」ー「正解」をファインチューニング用のデータセットに認定

この論文では、上記の手法を効率的に進めるためのサンプリング手法(Markov-chain Monte Carlo (MCMC) expectation-maximization (EM) algorithm )を研究した論文のようです。


取り組みの例: Guide answerが間違っていたりすることも多く、
色々と試行錯誤する感じのようです。

思うところ(limitation)

利点

  • 論理推論能力を鍛える上では、有用な気がしました

課題

  • 専門知識を問うタイプの問題では、適用が少し難しい気がしました。

    • LLMに、「専門的な根拠」に対応する作文をさせる必要があります。

      • 専門的な質問 -->[専門的な根拠] --> 専門的な回答

    • 一方、普通のLLMは専門知識を持っていないので、[専門的な根拠]をうまく作れない(ハルシネーションを連発)する可能性がありそうです


ーーー

以下、論文の読解メモとなります。

本当にメモ書きですので注意。

GPT-4に、高校生でもわかるように日本語で噛み砕いて説明してもらいながら読んでいきました。

アブスト

この論文「Training Chain-of-Thought via Latent-Variable Inference」では、大規模な言語モデル(LLM)が問題をより正確かつ解釈可能に解決するための新しい手法が提案されています。従来、LLMは「思考の連鎖」(CoT)と呼ばれるプロンプトを使って、問題の答えをステップバイステップで導き出すことで、性能が向上することが知られていました。また、特定のタスクに対するLLMの性能を向上させるためには、監督付きのファインチューニング(正解ラベル付きトレーニングセットからの平均ログ尤度を最大化するために調整可能なパラメータに対して勾配上昇を使用すること)が有効です。

しかし、CoTと監督付きチューニングを単純に組み合わせると、正解だけでなく、その答えに至る詳細な理由も監督する必要があり、これは手作業で生成するのが非常にコストがかかります。この論文では、正解を出力するためのCoTプロンプトを使用して生成された「マージナル」ログ尤度を最大化しようとする新しいファインチューニング戦略を提案しています。この方法では、すべての可能な理由を約平均化します。

この戦略の核心的な課題は、正解に基づいて理由の事後分布からのサンプリングです。これに対処するために、マルコフ連鎖モンテカルロ(MCMC)期待値最大化(EM)アルゴリズムを使用します。このアルゴリズムは、自己教育型推論者(STaR)、記憶化ウェイクスリープ、マルコフスコアクライミング、持続的な対照発散などから着想を得ています。また、モデルが改善するにつれて勾配推定の分散をゼロに駆動する新しいコントロールバリエート技術も採用されています。

このMCMC-EMファインチューニング技術をGSM8KやBIG-Bench Hardのタスクに適用した結果、STaRやCoTを使用したプロンプトチューニング(有無を問わず)よりも、保留中の例に対するモデルの精度が通常向上することが見出されています。

コメント: マルコフ連鎖モンテカルロ(MCMC)期待値最大化(EM)アルゴリズム(MCMC-EM)というアルゴリズムが核心のようです。

イントロ


大規模な言語モデル(LLM)は、数学的、論理的、または一般的な常識的な問題に対して、ステップバイステップで考えを進めて解答を導く「思考の連鎖」(Chain of Thought、CoT)という方法を使うと、より正確な答えを導き出すことができます。この方法では、モデルに問題を解くための一連の理由付け(rationale)を生成させます。つまり、答えに至るまでの論理的なステップを文章で説明させるわけです。これは、最終的な答えを直接生成するよりも、正しい論理のステップを順番に生成する方がモデルにとって簡単だと考えられています。

しかし、これらの方法にもまだ改善の余地があります。モデルにより良い理由付けを生成させるためには、「ファインチューニング」と呼ばれる手法を使ってモデルを特訓させることが一つの方法です。この場合、クラウドソーシングや自動生成などで「理想的な」理由付けを得ることができれば、監督付きの方法を適用できますが、このようなデータを得るのは難しいことが多いです。

そこで、質問と正解のみを含むデータセットから出発し、学習中に理由付けを自動的に生成するという代替案が提案されています。これは「自己教育型推論者」(STaR)と呼ばれる戦略の一種です。STaRでは、LLMが提案する理由付けを生成し、それらが正しい答えにつながるものだけを使ってファインチューニングします。

この論文では、理由付けを生成するための新しい学習アルゴリズム「TRICE」を紹介しています。TRICEは、単純なマルコフ連鎖モンテカルロ(MCMC)期待値最大化(EM)アルゴリズムに新しいコントロールバリエートスキームを組み合わせたものです。TRICEを使うと、モデルは難しい例を無視することなく、正しい理由付けだけでなく、間違った理由付けからも学ぶことができます。

この技術をGSM8KデータセットやBIG-Bench Hardベンチマークに適用した結果、TRICEはモデルの性能を大幅に向上させ、STaRや直接のチューニング、CoTの有無にかかわらず、人間が生成した理由付けに基づく監督付きファインチューニングを行ったモデルよりも優れた結果を示しました。

メソッド

(数式がたくさん並んでましたが、すべて飛ばして読みました)

関連研究

この分野では、ニューラルシーケンスモデルを使って問題解決のための理由付け(rationale)を生成するさまざまな方法が提案されています。これには、完全に監督されたアプローチや、少数の例で行う「フューショット」アプローチが含まれます。特に、私たちのアプローチに関連が深いのは「自己整合性のある思考の連鎖」(self-consistent chain-of-thought)です。この技術は、テスト時に理由付けを考慮に入れる方法と見なすことができ、定量的推論タスクの範囲に成功裏に適用されています。

しかし、トレーニング時に理由付けを考慮に入れたり平均化したりする研究は比較的少ないです。おそらく主な例はSTaR(自己教育型推論者)で、これについてはセクション3.1で議論しています。

Dohanら(2022)は、確率的プログラミングを通じて言語モデルの相互作用を表現することを提唱する論文を発表しています。私たちが理由付けを潜在変数として扱うアプローチは、その研究に触発されたものです。Lievin(2022)も、思考の連鎖を持つLLMを潜在変数モデルとして解釈する別の例を提供しています。

変分推論やウェイクスリープ法は、潜在変数モデルコミュニティの主要な手法ですが、セクション2.2で議論しているように、これらの方法のバイアスが深刻な問題を引き起こすことがわかりました。MCMC-EM(マルコフ連鎖モンテカルロ期待値最大化)は、現在ではあまり一般的ではない戦略ですが、ギブスサンプリングに基づくバージョン(Geman & Geman、1984)は、無向グラフィカルモデルのトレーニングに広く適用されてきました。TRICEもまた、マルコフスコアクライミングの一例と見なすことができます。

ReAct(Yaoら、2023)は、RL(強化学習)スタイルの観察と行動のループに推論を取り入れることで性能が大幅に向上することを実証しました。このアプローチはReflexion(Shinnら、2023)で拡張され、エージェントがRLの軌跡について条件付きで反省し、その結果の例を後続のロールアウトで少数例として使用できるようにします。これらのアプローチはそれぞれの評価タスクで大幅な改善を報告していますが、モデルが純粋にフューショットのプロンプトを通じて有用で実行可能なフィードバックを生成できることに依存しています。一方、私たちの方法では、モデルを積極的にチューニングして、タスクに適した思考を生成するようにします。

さらに、言語モデル内でのツール使用に関する最近の研究も、ツールへの呼び出しをどこに挿入するかを推測することによって機能しています。これらの研究の損失関数は、私たちのものと精神的に似ており、有効な答えにつながらない軌跡を除外することに焦点を当てています。この論文では、理由付けを潜在変数として扱っていますが、ツール使用も潜在変数として扱うことができます。

つまり、この研究分野では、ニューラルネットワークモデルを使った問題解決のために、さまざまな方法で理由付けを生成する試みが行われています。このアプローチの中には、モデルが問題を解く際に、その理由付けを自動的に生成し、さらにその理由付けを改善するための学習(ファインチューニング)を行うものも含まれます。理由付けを潜在変数として扱うことにより、モデルがより効果的に学習し、問題を解決する方法を学ぶことが可能になります。また、強化学習やツール使用などの他のアプローチも組み合わせることで、さらなる性能向上が期待されます。

比較その2

この論文では、特に「自己教育型推論者」(STaR)と呼ばれる手法と、論文で提案されているTRICEという手法の違いについて説明しています。

  1. 理由付けの多様性

    • STaR:STaRは「グリーディデコーディング」という方法を使っています。これは、モデルが訓練する際に考慮する理由付けの多様性を減らす方法です。この選択は、モデルが良くない理由付けにもかかわらず正しい答えを出す危険性を減らすために行われました。

    • TRICE:一方、TRICEは毎回理由付けを新しくサンプリング(選ぶ)するので、特定の理由付けに過度に適合することが少なくなります。

  2. 理由付けの更新

    • STaR:STaRは同じ理由付けのセットに対して多くのトレーニングイテレーションを行います。これは、古い理由付けを使ってマージナル尤度の勾配を推定することを意味します。これにより、モデルは訓練セットの固定された理由付けを実質的に記憶することになります。

    • TRICE:TRICEは、このような固定された理由付けを避け、より多様な理由付けを探求します。

  3. 困難な例への対応

    • STaR:STaRの導出には、訓練セットの中で最も困難な問題を無視する傾向があります。これは、STaRが直接0-1損失を最小化しようとする近似ポリシーグラディアントアルゴリズムに基づいているためです。

    • TRICE:対照的に、TRICEはマージナルログ尤度を最大化しようとします。これにより、困難な例がモデルの更新により大きな影響を与えるようになり、モデルがこれらの問題に「挑戦」する可能性が高まります。

これらの違いにより、TRICEはSTaRと比較してより多様な理由付けを生成し、困難な問題に対してもより効果的に対応することができるとされています。

Discussion

  • TRICEの提案:TRICEは、問題解決タスクにおいて、大規模言語モデル(LLM)を改善するための方法です。これは「思考の連鎖」(CoT)プロンプトを使っています。CoTを潜在変数モデルとして枠組み化することで、原理的で効果的なファインチューニング手法を導出しました。

  • 性能:GSM8KやBIG-Bench Hard(BBH)タスクにおいて、TRICEは直接のプロンプトチューニング、STaR、リジェクションサンプリングという3つの強力なベースラインを上回る性能を示しました。

  • 応用の広がり:TRICEはCoT問題解決の文脈で導出されましたが、その基本的なMCMC-EM戦略は、例えばツール使用問題など、より広範な分野に応用可能です。

  • 限界:TRICEは中規模のLLMでのプロンプトチューニングに限って評価されました。小規模や大規模のモデル、または他のファインチューニング戦略を使用した場合には、振る舞いが異なる可能性があります。TRICEは勾配ベースのチューニングアルゴリズムですが、多くの高性能LLMはプロプライエタリ(所有者によって管理されており)であり、勾配ベースのファインチューニングのための公開メカニズムを提供していないことが多いです。これは、例えばGPT-4(OpenAI, 2023)のようなモデルでTRICEがどのように機能するかを評価することを困難にしています。また、定量的な評価はLLMが正しい答えを出せるかに焦点を当てており、理由付け自体の推論の質は正式には評価されていません。

  • より広範な影響:この研究は、LLMの能力を向上させ、より正確かつ透明に問題に答えられるようにすることを目指しています。しかし、より能力の高いLLMは悪意ある方法や安全でない方法で使用される可能性があります。また、監修されていない問題解決データセットでのファインチューニングは、モデルにバイアスを導入する可能性がありますし、より広く使われるLLMは、より大きなカーボンフットプリントに寄与することになります。理由付けは、ユーザーがLLMの出力の信頼性を判断するのに役立つかもしれませんが、多くのユーザーはLLMの理由付けを読んで批判的に評価することはなく、単に理由付けの存在そのものを真実の証拠として受け取るかもしれません。思考の連鎖理由付けが無批判な信頼を促進する場合、それは害をもたらす可能性があります。



この記事が気に入ったらサポートをしてみませんか?