論文メモ Q*: LLMのマルチステップ推論を改善するための熟慮計画
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning
Chaojie Wang, Yanchen Deng, Zhiyi Lv, Liang Zeng, Jujie He, Shuicheng Yan, Bo An
Skywork AI
Nanyang Technological University
[v1] Thu, 20 Jun 2024 13:08:09 UTC (512 KB)
[v2] Mon, 24 Jun 2024 07:50:56 UTC (513 KB)
[v3] Thu, 27 Jun 2024 09:44:45 UTC (513 KB)
要旨(要約)
大規模言語モデル(LLM)は、多くの自然言語タスクにおいて素晴らしい能力を発揮してきました。しかし、自動回帰的な生成プロセスにより、LLMは多段階推論を行う際にエラーや幻覚、矛盾した文を生成しやすいです。本論文では、LLMの多段階推論を発見的探索問題として捉え、熟慮的計画によってLLMの解読プロセスを導くための、汎用的で機敏なフレームワークであるQ*を導入することで、この病理を緩和することを目指します。期待される将来の報酬を推定するためのヒューリスティック関数としてプラグアンドプレイQ値モデルを学習することにより、我々のQ*は、現在のタスクのためにLLMを微調整することなく、最も有望な次の推論ステップを選択するようにLLMを効果的に導くことができます。GSM8K、MATH、MBPPを用いた広範な実験により、本手法の優位性が実証され、既存のオープンソースLLMの推論性能向上に貢献します。
論文のポイント
はじめに
大規模言語モデル(LLMs)は、数学の文章問題、コード生成、計画など、さまざまな推論タスクを解決する能力を示しています。しかし、最も先進的なLLMsでさえ、自己回帰的な性質のため、推論ステップが増えるとエラーや幻覚、矛盾した発言を生じる傾向があります。多くの最近の研究は、LLMsの「システム1」能力を改善することに焦点を当てていますが、複雑な推論問題を解決するには、より深い熟慮的で論理的な思考ステップ、すなわち「システム2」モードが必要です。例えば、数学の文章問題を解く際には、どのような誤った中間推論ステップ(計算エラー、解釈ミスなど)も最終的な解答を誤らせる可能性があります。従来の「システム2」推論能力を向上させる試みには、基本的な木探索アルゴリズム(BFSやDFSなど)、モンテカルロ木探索(MCTS)、A*探索などが含まれますが、これらの方法で使用される効用関数は、各特定のタスクのために設計するのに多くの労力を要し、新しいシナリオに拡張するのが難しいです。関連研究
LLMアラインメント。アラインメントは、LLMsの出力が人間の期待から逸脱しないようにするための重要な技術となっています。教師付き微調整(SFT)は、出力と地上真理との間のクロスエントロピー損失を直接最小化する最も基本的なアラインメントアプローチです。RLHF(人間のフィードバックからの強化学習)は、人間の好みから報酬モデル(RM)を学習し、強化学習アルゴリズムを使用してSFTモデルを最適化し、RMからの累積報酬を最大化します。直接好み最適化(DPO)は、RMを明示的に学習することなく、人間のフィードバックからのランキング情報に基づいてLLMsを直接アラインします。Alignerは、LLMsの出力を書き換えることを学習するモデル非依存のアラインメント方法として登場しました。
計画でLLMsを強化する。ToT(Tree-of-thoughts)は、基本的な木探索アルゴリズムを使用して問題解決に向けた中間ステップを探索することで、LLMsの推論能力を向上させます。同様に、A*探索やMCTSが計画技術として適用され、複雑な推論問題を解決する際にLLMsの性能を向上させます。しかし、これらの方法で使用される効用関数は、LLMsのフィードバックから構築されたものであるため、複雑な問題では不正確になる可能性があります。また、MCTSを使用した計画では高コストのロールアウトを実行する必要があり、全体のデコードプロセスを大幅に遅らせる可能性があります。
予備知識
3.1 マルコフ決定過程(MDP)としてのLLMsのマルチステップ推論の定式化
LLMsの推論プロセスは、入力質問を受け取ると、複数の推論ステップに分解され、最終的な解答シーケンスはこれらの単一ステップの連結として扱われます。この観点から、LLMsのマルチステップ推論プロセスは、状態が入力質問とこれまでに生成された推論トレースの連結を表し、アクションが次の推論ステップを表し、報酬関数がタスクの解決度を測定するMDPとして概念化できます。Q*: 汎用的で柔軟なLLMsの熟慮計画フレームワーク
我々の提案するQ*は、LLMsのマルチステップ推論能力を改善するための汎用的で柔軟なフレームワークです。既存の熟慮手法とは異なり、我々の方法はドメイン知識に依存せず、プラグアンドプレイのQ値モデルをヒューリスティック関数として活用することで、LLMsのパラメータを事前に微調整することなく、次の最も有望なステップを選択するようにガイドします。具体的には、LLMsの推論プロセスをヒューリスティック検索プロセスとして捉え、各状態にf値を割り当て、最も適切な推論トレースを見つけることを目的としています。実験
5.1 実験設定
本研究では、GSM8K、MATH、MBPPの3つのタスクでQ*の有効性を評価しました。これらのデータセットは、数学の文章問題やコード生成の問題を含み、それぞれの解答はマルチステップ推論を必要とします。
実験結果
GSM8Kデータセットにおいて、Llama-2-7bモデルをベースモデルとして選び、Qが従来の手法よりも優れた性能を発揮することを示しました。MATHデータセットでは、より強力なLLMsを使用してQの有効性を評価し、既存のクローズドソースモデルを上回る性能を達成しました。MBPPデータセットでは、コード生成タスクにおいてもQ*が優れた性能を示しました。
結論
複雑なマルチステップ推論問題を解決するには、LLMsが自己回帰トークン生成を超えた深い熟慮を行う必要があります。本研究では、Q*という汎用的で柔軟な熟慮計画フレームワークを提案し、広範な実験によりその優位性を実証しました。
この記事が気に入ったらサポートをしてみませんか?