[arXiv読解メモ] 潜在変数推論による思考連鎖のトレーニング Training Chain-of-Thought via Latent-Variable Inference

2023年12月9日 14:43

はじめに

教えていただいた論文の読解メモです｡

私なりの理解

殆ど真面目に読んでいないので､間違っていたらすみません｡

Training Chain-of-Thought を促すためのデータセットの自動生成

「質問」ー「正解」ペアを準備
当該問題の「根拠」となる文章をLLMで生成
「質問」ー「根拠」から正解を推論できるかを検証
正解なら､「質問」ー「根拠」ー「正解」をファインチューニング用のデータセットに認定

この論文では､上記の手法を効率的に進めるためのサンプリング手法(Markov-chain Monte Carlo (MCMC) expectation-maximization (EM) algorithm )を研究した論文のようです｡

取り組みの例: Guide answerが間違っていたりすることも多く､
色々と試行錯誤する感じのようです｡

思うところ(limitation)

利点

論理推論能力を鍛える上では､有用な気がしました

課題

専門知識を問うタイプの問題では､適用が少し難しい気がしました｡
- LLMに､「専門的な根拠」に対応する作文をさせる必要があります｡
  - 専門的な質問 -->[専門的な根拠] --> 専門的な回答
- 一方､普通のLLMは専門知識を持っていないので､[専門的な根拠]をうまく作れない(ハルシネーションを連発)する可能性がありそうです

ーーー

以下､論文の読解メモとなります｡

本当にメモ書きですので注意｡

GPT-4に､高校生でもわかるように日本語で噛み砕いて説明してもらいながら読んでいきました｡

アブスト

この論文「Training Chain-of-Thought via Latent-Variable Inference」では、大規模な言語モデル（LLM）が問題をより正確かつ解釈可能に解決するための新しい手法が提案されています。従来、LLMは「思考の連鎖」（CoT）と呼ばれるプロンプトを使って、問題の答えをステップバイステップで導き出すことで、性能が向上することが知られていました。また、特定のタスクに対するLLMの性能を向上させるためには、監督付きのファインチューニング（正解ラベル付きトレーニングセットからの平均ログ尤度を最大化するために調整可能なパラメータに対して勾配上昇を使用すること）が有効です。

しかし、CoTと監督付きチューニングを単純に組み合わせると、正解だけでなく、その答えに至る詳細な理由も監督する必要があり、これは手作業で生成するのが非常にコストがかかります。この論文では、正解を出力するためのCoTプロンプトを使用して生成された「マージナル」ログ尤度を最大化しようとする新しいファインチューニング戦略を提案しています。この方法では、すべての可能な理由を約平均化します。

この戦略の核心的な課題は、正解に基づいて理由の事後分布からのサンプリングです。これに対処するために、マルコフ連鎖モンテカルロ（MCMC）期待値最大化（EM）アルゴリズムを使用します。このアルゴリズムは、自己教育型推論者（STaR）、記憶化ウェイクスリープ、マルコフスコアクライミング、持続的な対照発散などから着想を得ています。また、モデルが改善するにつれて勾配推定の分散をゼロに駆動する新しいコントロールバリエート技術も採用されています。

このMCMC-EMファインチューニング技術をGSM8KやBIG-Bench Hardのタスクに適用した結果、STaRやCoTを使用したプロンプトチューニング（有無を問わず）よりも、保留中の例に対するモデルの精度が通常向上することが見出されています。

コメント: マルコフ連鎖モンテカルロ（MCMC）期待値最大化（EM）アルゴリズム(MCMC-EM)というアルゴリズムが核心のようです｡

イントロ

大規模な言語モデル（LLM）は、数学的、論理的、または一般的な常識的な問題に対して、ステップバイステップで考えを進めて解答を導く「思考の連鎖」（Chain of Thought、CoT）という方法を使うと、より正確な答えを導き出すことができます。この方法では、モデルに問題を解くための一連の理由付け（rationale）を生成させます。つまり、答えに至るまでの論理的なステップを文章で説明させるわけです。これは、最終的な答えを直接生成するよりも、正しい論理のステップを順番に生成する方がモデルにとって簡単だと考えられています。

しかし、これらの方法にもまだ改善の余地があります。モデルにより良い理由付けを生成させるためには、「ファインチューニング」と呼ばれる手法を使ってモデルを特訓させることが一つの方法です。この場合、クラウドソーシングや自動生成などで「理想的な」理由付けを得ることができれば、監督付きの方法を適用できますが、このようなデータを得るのは難しいことが多いです。

そこで、質問と正解のみを含むデータセットから出発し、学習中に理由付けを自動的に生成するという代替案が提案されています。これは「自己教育型推論者」（STaR）と呼ばれる戦略の一種です。STaRでは、LLMが提案する理由付けを生成し、それらが正しい答えにつながるものだけを使ってファインチューニングします。

この論文では、理由付けを生成するための新しい学習アルゴリズム「TRICE」を紹介しています。TRICEは、単純なマルコフ連鎖モンテカルロ（MCMC）期待値最大化（EM）アルゴリズムに新しいコントロールバリエートスキームを組み合わせたものです。TRICEを使うと、モデルは難しい例を無視することなく、正しい理由付けだけでなく、間違った理由付けからも学ぶことができます。

この技術をGSM8KデータセットやBIG-Bench Hardベンチマークに適用した結果、TRICEはモデルの性能を大幅に向上させ、STaRや直接のチューニング、CoTの有無にかかわらず、人間が生成した理由付けに基づく監督付きファインチューニングを行ったモデルよりも優れた結果を示しました。

メソッド

(数式がたくさん並んでましたが､すべて飛ばして読みました)

Discussion

TRICEの提案：TRICEは、問題解決タスクにおいて、大規模言語モデル（LLM）を改善するための方法です。これは「思考の連鎖」（CoT）プロンプトを使っています。CoTを潜在変数モデルとして枠組み化することで、原理的で効果的なファインチューニング手法を導出しました。
性能：GSM8KやBIG-Bench Hard（BBH）タスクにおいて、TRICEは直接のプロンプトチューニング、STaR、リジェクションサンプリングという3つの強力なベースラインを上回る性能を示しました。
応用の広がり：TRICEはCoT問題解決の文脈で導出されましたが、その基本的なMCMC-EM戦略は、例えばツール使用問題など、より広範な分野に応用可能です。
限界：TRICEは中規模のLLMでのプロンプトチューニングに限って評価されました。小規模や大規模のモデル、または他のファインチューニング戦略を使用した場合には、振る舞いが異なる可能性があります。TRICEは勾配ベースのチューニングアルゴリズムですが、多くの高性能LLMはプロプライエタリ（所有者によって管理されており）であり、勾配ベースのファインチューニングのための公開メカニズムを提供していないことが多いです。これは、例えばGPT-4（OpenAI, 2023）のようなモデルでTRICEがどのように機能するかを評価することを困難にしています。また、定量的な評価はLLMが正しい答えを出せるかに焦点を当てており、理由付け自体の推論の質は正式には評価されていません。
より広範な影響：この研究は、LLMの能力を向上させ、より正確かつ透明に問題に答えられるようにすることを目指しています。しかし、より能力の高いLLMは悪意ある方法や安全でない方法で使用される可能性があります。また、監修されていない問題解決データセットでのファインチューニングは、モデルにバイアスを導入する可能性がありますし、より広く使われるLLMは、より大きなカーボンフットプリントに寄与することになります。理由付けは、ユーザーがLLMの出力の信頼性を判断するのに役立つかもしれませんが、多くのユーザーはLLMの理由付けを読んで批判的に評価することはなく、単に理由付けの存在そのものを真実の証拠として受け取るかもしれません。思考の連鎖理由付けが無批判な信頼を促進する場合、それは害をもたらす可能性があります。

この記事が気に入ったらサポートをしてみませんか？