Prover-Verifier ゲームによる言語モデル出力の可読性向上

2024年7月18日 15:09

Jan Hendrik Kirchner*, Yining Chen*, Harri Edwards†, Jan Leike†, Nat McAleese, Yuri Burda†
OpenAI

Equal contribution, order decided by coin flip. プロジェクトはSuperalignment Gamesチームによって実施されました。 †Work done while at OpenAI.

要旨

大規模言語モデル(LLM)の出力に対する信頼性を高める一つの方法は、明確で簡単にチェックできる推論でそれらをサポートすることです - 私たちはこの特性を読みやすさと呼んでいます。小学校レベルの数学問題を解く文脈で読みやすさを研究し、思考の連鎖の解決策を正解のみで最適化すると、それらの読みやすさが低下することを示します。読みやすさの低下を緩和するために、Anil et al. (2021)のプルーバー-検証者ゲームに触発された訓練アルゴリズムを提案します。私たちのアルゴリズムは、解の正しさを予測する小規模な検証者、検証者が受け入れる正しい解を生成する「役立つ」プルーバー、検証者を欺く不正解の解を生成する「狡猾な」プルーバーを反復的に訓練します。私たちは、訓練の過程で役立つプルーバーの精度と検証者の敵対的攻撃に対する堅牢性が向上することを発見しました。さらに、解の正しさを検証するタスクを与えられた時間制限のある人間に対して、読みやすさの訓練が転移することを示します。LLMの訓練の過程で、人間の精度は役立つプルーバーの解をチェックする際に向上し、狡猾なプルーバーの解をチェックする際に低下します。したがって、小規模な検証者によるチェック可能性のための訓練は、大規模なLLMの出力の人間に対する読みやすさを向上させるための実用的な手法であり、スーパーヒューマンモデルのアラインメントに役立つ可能性があります。

1. はじめに

機械学習システムがより高いリスクの領域で使用されるようになるにつれ、その出力を信頼できる理由を正当化し、そのような信頼を置くべきでない場合を明確にすることがますます重要になってきています。複雑なシステムの出力に信頼を置く一つの可能な方法は、システムが人間や他の信頼できるシステムにとって読みやすい、つまり、可能性のあるエラーがすべて発見されるほど完全に理解できる出力の説明を生成することを要求することです。例えば、司法システムへの信頼を構築するために、私たちは裁判所に対して、その意思決定を説明し支持する明確で読みやすい書面での意見を作成することを求めます。
本論文では、能力のあるLLMの出力を人間にとってより読みやすくできるかどうかを問います。一つの直接的なアプローチは、人間のフィードバックを通じて読みやすさのためにモデルの出力を最適化することです（例：RLHF; Christiano et al. 2017）が、これには限界があります（Casper et al., 2023）。私たちは補完的なアプローチを研究し、より大きなLLMプルーバーを最適化して、より小さなLLM検証者がチェック可能な思考の連鎖（CoT）解を生成することで、それらを人間にとってより読みやすくできるかどうかを問います。小規模な検証者を人間の代理として研究する動機には以下が含まれます：(1) LLMはすでにLLMの出力を判断するのを援助するために使用されており、このアプローチは人間のみに頼るよりも拡張性があります（Bai et al., 2022; Saunders et al., 2022; Markov et al., 2023）、(2) プルーバーと検証者の間の能力差（事前訓練の計算量の観点から）を変更することで、この差の関数として読みやすさを研究できます、(3) 高度なシステムに対する人間のフィードバックが限られている場合、より能力の低い検証者によって検証可能な出力を作ることで、人間の読みやすさを段階的に援助できる可能性があります（Leike et al., 2018; Christiano et al., 2018）。
私たちの主な結果は図1に示されています：

解の正しさに対する直接的な強化学習は、人間が評価するのが困難な解を生成します。プルーバーを解の正しさのみで最適化すると、小学校レベルの数学問題で高いパフォーマンスを達成できます。しかし、モデルによって生成される解は人間が書いた解とは非常に異なるため、時間制限のある人間が評価するのは困難です（セクション4.1）。
私たちが提案するチェック可能性訓練は、読みやすさを維持しながら適度なパフォーマンスを達成します。チェック可能性訓練後、私たちはより良いパフォーマンスと読みやustさのトレードオフを持つプルーバーを得ます。正しさのみで最適化されたプルーバーよりもテストパフォーマンスは低く、これは読みやすさの税（Leike, 2022）の一例を表しています。チェック可能性訓練は部分的にこのギャップを埋め、後の訓練ラウンドでプルーバーの合格率が向上します（セクション4.3.3）。

検証可能性訓練は3つの有用なアーティファクトを生成します - 堅牢な検証者、狡猾なプルーバー、役立つプルーバーです。私たちは狡猾なプルーバーと役立つプルーバーの読みやすさ、および検証者の健全性を評価します。主な発見は以下の通りです：

検証者は、様々な狡猾な攻撃の困難さとバランスの取れたベストオブn精度によって測定される通り、訓練ラウンドを通じて健全性が向上します（セクション4.3.1）。
狡猾なプルーバーはますます微妙な欠陥を生成します。GPT-4によって判断されたステップごとの正しさの平均が増加し、狡猾な解に対する平均的な人間の判断精度が低下します（セクション4.3.2）。
役立つプルーバーはより高い合格率を達成し、後のラウンドでは人間のトレーナーがより正確に判断します（セクション4.3.3）。

全体として、より小さなLLMに対する読みやすさが人間に対する読みやすさに転移するように見えることは驚きでした - より小さな検証者にとって検出が困難な狡猾な解は、人間にとっても検出が困難であり、より小さな検証者にとってより読みやすい役立つ解は、人間にとってもより読みやすいです。将来のLLMが超人的な能力を獲得した場合、それらをより読みやすくするように訓練することは、人間がその正しさを評価するのに役立ちます。したがって、プルーバー-検証者ゲームは、スケーラブルな監督方法の有望な候補です。

2. 関連研究

計算複雑性。私たちの訓練セットアップは、NP検証プロトコルの学習（Micali, 2000）に最も似ています。より多くのインタラクションを許可すれば、PVGのセットアップを対話型証明（Babai, 1985; Goldwasser et al., 2019）に拡張できます。Goldwasser et al. (2021)とMutreja and Shafer (2023)は、確率的近似正確（PAC）検証に対話型証明を適用しました。彼らは、信頼できないプルーバーと対話することで、検証者がはるかに少ないデータで仮説クラスを学習できることを示しました（仮説クラスのVapnik-Chervonenkis次元V C(H)に対してO(√V C(H))のサンプル複雑性）。私たちの研究では、検証者に対してデータ（無限のデータがあっても、プルーバーの助けなしに独立して解を生成できない）ではなく能力の制約を仮定しています。Anil et al. (2021)は、プルーバー-検証者ゲームとアラインメント問題との最初の関連付けを行いました。彼らは、異なるゲームのセットアップが異なる望ましさの均衡につながることを証明し、おもちゃの実験設定で経験的に有望性を示しました。これらの以前の研究とは異なり、私たちの検証者のタスクは入力の分類ではなく、解の正しさを判断することです。私たちはこれらの理論的研究からインスピレーションを得て、非自明な領域で大規模にチェック可能性を訓練することを目指しています。
スケーラブルな監督。識別が生成よりも容易であるという中心的な仮説は、批評（Saunders et al., 2022; McAleese et al., 2024）やディベート（Irving et al., 2018）を含む多くのスケーラブルな監督方法に共通しています。Parrish et al. (2022)は、人間のディベートを通じて時間制限のある人間の判断精度を向上させることについての否定的な結果を示しました。以前の研究では、LLMを判断者やディベーターとして使用することも研究されていますが、プルーバーと検証者の両方を改善するための正解ラベルが利用可能かどうかについては意見が分かれています。私たちのセットアップは、役立つプルーバーと狡猾なプルーバーが異なる答えについてモデル判断者を説得しようとする単一ターンの同時ディベートに似ています。同様に、教師あり訓練を使用して、Radhakrishnan (2023)はモデルディベーターと判断者を訓練し、最適化によってディベーターがより説得力を持ち、判断者がより正確になることを示しました。Michael et al. (2023)は、人間の判断者にとってディベートがコンサルタンシー（役立つプルーバーからの議論を半分の時間、狡猾な議論を半分の時間表示する）よりも効果的であることを示しました。私たちのセットアップでは、判断者は両方の側を同時に見ないので、コンサルタンシーアプローチにより似ています。Khan et al. (2024)は、説得力の信号のみ（正解ラベルなし）を使用して訓練されたLLMが、非専門家のモデルと人間の判断者の両方を支援できることを示しました。これらの研究はすべて、主にQuALITYデータセット（Pang et al., 2022）を使用しています。このデータセットでは、タスクはフィクションの物語に関する質問応答であり、正当化は主にテキストからの検証された引用で構成されています。対照的に、私たちはより人工的でなく、より挑戦的な推論領域に焦点を当てています。ここでは、プルーバーと検証者の違いは特権的な情報ではなく、能力のギャップです。
思考の連鎖。LLMに思考の連鎖（CoT）解を生成するようにプロンプトすることは、精度を向上させるのに有用です（Wei et al., 2022）。CoTは最終的な答えの自然な正当化として使用できます。しかし、CoTは必ずしも読みやすいことが保証されているわけではなく、私たちのチェック可能性訓練はCoTをより読みやすくするための一つの方法です。多くの研究が、タスク分解（Christiano et al., 2018; Radhakrishnan et al., 2023; Wen et al., 2024）、再帰的要約（Wu et al., 2021）、象徴的推論（Lyu et al., 2023）など、特定のタイプの構造化されたCoTを生成するようにモデルを導いています。Lightman et al. (2024)は、数学を解くことができるモデルを訓練するために、高価なステップごとの人間の監督を使用しています。対照的に、私たちは出力構造を強制せず、最終的な答えの監督にのみ依存しています。私たちのチェック可能性訓練方法は一般的であり、正解ラベルがある程度ある任意の領域ですぐに研究できます。読みやすさは訓練のダイナミクスの自然な結果として現れます（図2）。
説明可能性と読みやすさは補完的な特性です。説明可能性（Zhao et al., 2024）は、推論が正しいかどうかに関わらず、プルーバーモデルの推論の説明を与えようとします。結果として得られる説明は任意に複雑になる可能性があります（Nanda et al., 2023）。対照的に、プルーバーモデルの出力の読みやすさは、プルーバーがどのように推論したかを無視して、与えられた解が正しいかどうかを検証することを可能にします。したがって、読みやすさはモデルの出力が一貫性があり、人間の理解に accessible であることを要求します（Rudin, 2019）。どちらか一方だけを持つことは可能ですが、特にハイステークスな設定では、理解よりも正しさの方が重要です（Ziegler et al., 2022）。
敵対的堅牢性。深層ニューラルネットワークは敵対的攻撃に対して脆弱です（Szegedy et al., 2013; Biggio et al., 2013）。敵対的防御に関する10年に及ぶ研究は、視覚モデルに対して限定的な成功しか収めていません（Croce et al., 2020）。言語モデルは離散的な入出力トークンを持つため、勾配ベースの攻撃を行うのはそれほど簡単ではありません（Carlini et al., 2024）が、アラインメントプロセスを元に戻すことができるホワイトボックス（Zou et al., 2023）およびブラックボックス（Shah et al., 2023; Hayase et al., 2024）のジェイルブレイクはまだ見つかっています。モデルや人間のいずれに対しても、完全に堅牢な検証者を要求することは現実的ではありません（Elsayed et al., 2018）。私たちのチェック可能性訓練は、検証者に対する敵対的訓練と見なすことができ、セクション4.3.1で示すように、訓練攻撃とは異なるテスト攻撃に対する堅牢性が転移することを示しています。これは敵対的堅牢性の文献における一般的な方法と類似しています（Carlini et al., 2019）。
具体的な応用における読みやすさ。以前の研究では、異なる文脈で読みやすさを研究しています。例えば、ロボット工学では、読みやすさはエージェントの意図をその行動に基づいて解釈できることを指します（Dragan et al., 2013）。コーディングに関しては、人間の読みやすさには、実行を正しくトレースできること、バグを見つけること、目標を要約することなど、複数の側面があります（Oliveira et al., 2020; Wen et al., 2024）。この研究では、時間制限のある設定での解の正しさの判断の精度を通じて人間の読みやすさを測定しましたが、これは人間の読みやすさを測定する多くの方法の1つに過ぎません。

3. セットアップ

一般に、私たちは正解がわかっている問題のデータセット(x, y) ∈ X × Yを考えます。ここで、xは問題文を表し、y = y(x)は既知で一意の正解を表します。問題xに対する提案された解zと最終的な答えが与えられたとき、1correct(x, z)を解が y(x)と同じ答えを提案する場合に1、そうでない場合に0となる正しさの指標とします。小学校レベルの数学（GSM）問題に対して1correct(x, z)を評価するためにSymPyグレーダー（Meurer et al., 2017）を使用します。
私たちは、問題文が与えられたときに解を提案するプルーバーπ(z|x)と、解の答えの正しさを推定する検証者v(x, z) ∈ [0, 1]を持っています。検証者の出力を説得力スコアと呼びます。

3.1 チェック可能性からプルーバー-検証者ゲームへ

チェック可能性の正式な定義から始めます。モデルファミリーHからのプルーバーπがデータ分布PXY上で検証者vに対してチェック可能であるのは、プルーバーが常に正しく説得力のある解を生成し、同じモデルファミリーHからの敵対的/"狡猾な"プルーバーが不正解の解を受け入れるように検証者を欺くことができない場合に限ります。形式的には、

完全性: $${∀x ∈ X, 1correct(x, π(x)) = v(x, π(x)) = 1}$$
健全性: $${∀π′ ∈ H, ∀x ∈ X, 1correct(x, π′(x)) = 0 ⇒ v(x, π′(x)) = 0}$$

上記の定義に関するいくつかの注意点：まず、チェック可能性は、読みやすさから直感的に望むものをすべて捉えているわけではありません。私たちは将来の研究で他の定義を触発することを望んでいます。次に、狡猾なプルーバーを役立つプルーバーと同じモデルファミリーに制限しました。これは、「ある大きさ、アーキテクチャ、特定のアルゴリズムで訓練された特定のサイズのインテリジェントシステムを、別のインテリジェントシステムが信頼できるか」という質問に答えることに興味があるからです。したがって、私たちは答えを求めるモデルのクラスに対して検証者が堅牢であることのみを確保する必要があります。第三に、経験的な研究では、近似的な完全性と健全性を見つけることのみを目指しています。私たちが研究する検証者とプルーバーはニューラルネットワークであるため、完全な完全性と健全性を見つけることは実用的ではありません。したがって、以下の意味で完全性と健全性の緩和を研究します：(1)役立つプルーバーについては、分布PXYで高確率で正しいことを要求します。(2)検証者については、正直なプルーバーに比較的"近い"限定された一連のブラックボックス攻撃に対して堅牢であることを要求します（直感的には、検証者が結論を無効にするような小さなエラーを見逃さないようにしたいと考えています）。私たちは、様々な攻撃に対する検証者のランキングを通じて検証者の健全性を比較し、攻撃がより包括的であるほど、健全性の測定により近づきます。
私たちは、プルーバー-検証者ゲーム（Anil et al., 2021）の変種を使用して、読みやすいプルーバーと健全な検証者を訓練することを提案します。これを、ロール条件付きプルーバーπと検証者vの間の2プレイヤーゲームとして定式化します。役立つロールで条件付けられたプルーバーをh(x) = π(x, role=helpful)、狡猾なロールで条件付けられたプルーバーをs(x) = π(x, role=sneaky)と略記します。
検証者の効用を、役立つサンプルと狡猾なサンプルの間の均一な混合に対する負の分類損失として定義します。
$${R_V = -\frac{1}{2}E_{x\sim P_X}l(v(x, h(x)), 1_{correct}(x, h(x))) - \frac{1}{2}E_{x\sim P_X}l(v(x, s(x)), 1_{correct}(x, s(x)))}$$
ここで、l(v, c) : [0, 1] × {0, 1} → Rは、v = cの場合にのみ最小化される損失関数です（クロスエントロピー損失など）。一般性を失うことなく、l(c, c) = 0と仮定します。実際には、l_V = -R_Vに対する勾配降下を通じてR_Vを最適化します。
ポリシーは役立つまたは狡猾なロールに等確率で条件付けられ、組み合わされた報酬は以下の通りです：
$${R_P = \frac{1}{2}E_{x\sim P_X}r(v(x, h(x)), 1_{correct}(x, h(x))) + \frac{1}{2}E_{x\sim P_X}r(v(x, s(x)), 1 - 1_{correct}(x, s(x)))}$$
ここで、r(v, q) : [0, 1] × {0, 1} → Rは以下を満たす報酬関数です：
$${\forall v_1, v_2 \in [0, 1] : r(v_1, 1) > r(v_2, 0),}$$ $${\forall v_1, v_2 \in [0, 1], v_1 > v_2 : r(v_1, 1) > r(v_2, 1).}$$
ここでq ∈ {0, 1}は、解の正しさがロールに合致していることを示します - プルーバーが役立つように割り当てられ、解が正しい場合、またはプルーバーが狡猾に割り当てられ、解が不正確な場合に1となります。プルーバー報酬関数に関する上記の2つの仮定は：第一に、任意のロール合致解は、任意のロール不一致解よりも高い報酬を得ます。第二に、任意のロール合致解について、検証者がその解により高いスコアを与えると、プルーバーはより高い報酬を得ます。実際には、解に関して微分できないため（LLMトークンの反復的な自己回帰サンプリングが必要で、これは微分不可能な操作です）、強化学習を通じてR_Pを最適化します。
プルーバー-検証者ゲームと完全性および健全性の目的との関連を以下のように示します：
定理1：Hが X から Z へのすべての決定論的マッピングの集合であると仮定すると、検証者の効用がR_Vでプルーバーの効用がR_Pであるプルーバー-検証者ゲームにおいて、検証者主導のStackelberg均衡(v*, h*, s*)の存在は、(v*, π*)に対する完全性と健全性の特性が成り立つための必要十分条件です。
プレイヤーの1人（この場合、検証者）がリーダーで、もう1人のプレイヤー（プルーバー）がフォロワーです。リーダー戦略が与えられた場合、フォロワーは常にその最良応答戦略をプレイすると仮定し、リーダーはこの知識に基づいて戦略を選択します。Stackelberg均衡は、どちらのプレイヤーも戦略を変更するインセンティブがないことを意味します。証明は付録Aにあります。Anil et al. (2021)の定理2と比較して、損失関数と報酬に関するより緩和された仮定を持っています。
実際には、LLMは確率的モデルであり、LLMの仮説クラスはXからZへのすべてのマッピングの部分集合に過ぎないため、私たちの経験的なセットアップは理論的な仮定と正確には一致しません。さらに、プレイヤーがニューラルネットワークのような非凸モデルである場合、Stackelberg均衡を効率的に見つけるための正式な保証はありません。しかし、近似的な局所均衡を見つけるために座標降下を用いてモデルを訓練することができます。

3.2 チェック可能性訓練

実際には、lとrのわずかな変形を用いて検証者とプルーバーの訓練目的を設計します。最も注目すべき点は、各解に対する絶対的な損失の代わりに、各質問に対する正解と不正解の解の比較に基づく相対的な損失（Bradley and Terry, 1952）を使用して検証者を訓練することです。プルーバー報酬rについては、検証者スコアvとロール合致qを異なる優先度で扱う3つの変種があります。プルーバーと検証者はいずれもGPT4ファミリー（Achiam et al., 2023）からのものです。人間が書いた証明や導出を含む、事前訓練分布からの様々な数学データで軽く微調整された異なるサイズのモデルでプルーバーと検証者を初期化します。アルゴリズムの詳細について以下で説明します。
まず、ChatGPTを使用して100k個の合成的に生成および検証されたデータポイントを使用して、GSM（Cobbe et al., 2021）データセットを拡張しました。これはLiu et al. (2023)の方法と同様です。訓練のダイナミクスに焦点を当てるために、サンプル効率によってボトルネックにならないようにデータセットを大きくしました。実際のデータと合成データを使用しても、元のテストセットの精度に影響がないことを検証しました。
次に、訓練データセットDを、プルーバーπと検証者Vの訓練にそれぞれ使用される2つの等しいサイズのサブセットDπとDVにランダムに分割しました。これにより、検証者とプルーバーが同じプロンプトで最適化されることはありません。
訓練は複数のラウンドで進行し、各ラウンドで検証者訓練フェーズがプルーバー訓練フェーズに先行します。ラウンド間で変更されるのは、検証者の訓練に使用されるデータミックスチャーのみです。モデルの重みなど、他の状態は引き継がれません。
ラウンドiの検証者訓練フェーズでは、検証者Viを以下の正則化された比較損失を最小化するように訓練します：
$${E_{x\sim D_V}\left[E_{z_1,z_2\sim\pi^}\log\sigma[(V(x,z_1) - V(x,z_2)) \cdot \text{sign}(1_{correct}(z_1) - 1_{correct}(z_2))] + \lambda E_{z\sim\pi^}V(x,z)^2\right]}$$
ここでV(x,z) ∈ Rはスコアリング関数であり、理論的な定式化のように[0,1]の範囲に制限されていません。理論的な定式化との混同を避けるため、大文字のVを使用しています。最初の項は、Bradley-Terryモデルの下で正解の解が不正解の解よりも高くランク付けされる対数尤度を最大化する報酬モデリング目的であり、Ouyang et al. (2022)と同様です。2番目の項は、Vを0に中心化するための正則化項です。この項がないと、Vに任意の問題ごとの定数を加えても目的関数は変わりません。予備実験では、この目的関数がチェック可能性訓練の全体的なダイナミクスにおいてクロスエントロピー損失と互換性があることがわかり、エンジニアリングの便宜上、この形式を採用しました。
検証者訓練に使用される解をサンプリングするプルーバーπ*は、初期ベースプルーバーと前のラウンドのプルーバーの混合であり、それぞれ正解と不正解の解の数が均等になるようにバランスを取っています。前のラウンドはそれぞれ混合に等しい比率を持ち、これはハイパーパラメータとして調整されます。ラウンド0では、解は少数ショットプロンプト（付録H）を介してサンプリングされたベースプルーバーからのものです。後のラウンドの訓練では、解の一部を新しいプルーバーからのものに置き換えます。したがって、常に問題ごとに同じ数の解を使用します。検証者の最適化量はラウンドを通じて一定です。
プルーバー訓練フェーズでは、現在のラウンドの検証者スコアと割り当てられたロールに対する正しさの一致から導出される期待報酬Rを最大化するために、近位方策最適化（PPO; Schulman et al. 2017）を使用します。プルーバーの目的は、以下の報酬を最大化することです（初期化に対する小さなKL正則化を引いたもの）：
$${E_{x\sim D_\pi,role\sim\{helpful, sneaky\},z\sim\pi(\cdot|x,role)}R(z | x, role)}$$
3つのRの変種を実験しました。最初の報酬変種を署名付き相対説得力（SRC）報酬と呼びます。問題xが与えられたとき、ロール指標1helpful(role)をプルーバーが役立つように割り当てられた場合に1、そうでない場合に0とします。ロールとxを条件とした場合、プルーバーが生成した解のバッチ{z0, ..., zb} ∼ π(・| x, role)の検証者スコアを{V(x, z0), ..., V(x, zb)}とします。スコアは正規化されていないため、まずスコアをバッチ正規化して平均0にします。つまり、V'(x, zi) = V(x, zi) - (Σbj=1 V(x, zj))/bとし、その後報酬を以下のように設定します：
$${R_{SRC}(z_i | x, role) = \begin{cases} (2\cdot1_{correct}(x,z_i) - 1) \cdot (2\cdot1_{helpful}(role) - 1) \cdot V'(x,z_i) & \text{if } V'(x,z_i) > 0 \\ -1 & \text{otherwise} \end{cases}}$$
検証者スコアの範囲の不一致を無視すると、最初のケースはr(v,q) = v・(2q-1)と設定することと同等です。つまり、1correct(x,zi) = 1helpful(role)の場合、報酬は正規化された検証者スコアに等しく、そうでない場合は負のスコアに等しくなります。このケースは、仮定(1)を満たしています。つまり、任意のロール一致解は任意の非一致解よりも高いスコアを持ち、任意の2つのロール一致解について、検証者スコアがより高いものがより高い報酬を得ます。しかし、平均スコアを下回る任意の解に直接-1のスコアを割り当てる2番目のケースは、理論的な定式化から逸脱しています。このケースの根拠は、ロール一致よりも説得力を優先することです。セクション4.2では、これが実際に収束に有用であることを示します。
ロール一致を優先する2番目の報酬変種は、正解ゲート付き説得力（CGC）報酬です：
$${R_{CGC}(z | x, role) = \begin{cases} V(x,z) & \text{if } 1_{helpful}(role) = 1_{correct}(x,z) \\ V_0 & \text{otherwise} \end{cases}}$$
ここでV0は実際にはすべての検証者スコアよりも低い定数です（実験では-2を使用しました）。この報酬は、検証者スコアの範囲の不一致を無視すると、r(v,q) = qv + (1-q)infvに対応し、報酬の仮定(1)を満たします。経験的に、この報酬はSRC報酬よりも悪いダイナミクスにつながります（セクション5.1）。
また、反復的グッドハーティングと呼ぶセットアップも考慮します。ここでは、役立つプルーバーと狡猾なプルーバーの両方が以下の報酬を使用します：
$$R_{goodhart}(z | x) = V(x,z)$$
これは、報酬が説得力のみを奨励することを意味します。つまり、r(v,q) = vです。このバージョンは、r(v,0) = r(v,1)であるため、仮定(1)を満たしません。経験的結果はセクション5.2にあります。

4. 結果

4.1 ベースライン：正解のみの直接最適化

私たちのセットアップの自然なベースラインは、中間の検証者なしに解の正しさに対して直接プルーバーモデルを訓練することです。具体的には、解が正しいかどうかをチェックする二値分類器に対して近位方策最適化（PPO）を使用できます。このアプローチは、Havrilla et al. (2024)などの研究で探求されており、言語モデルが答えの正しさに基づく報酬を用いて強化学習（RL）によって微調整されています。私たちは、この論文のすべての方法で同じ小さな係数でプルーバー初期化に対するKL正則化を使用します。
実際、正しさのみを目標として私たちのプルーバーを最適化すると、小学校レベルの数学問題で強力なパフォーマンスを達成することがわかりました（図4a）。結果として得られるプルーバーからのサンプルを調べると、プルーバーが各質問を複数の方法で解くようになり、訓練の後半では正解を生成しているにもかかわらず、解がほとんど読めなくなっていることに気づきます（付録図S1）。
この特異なスタイルが解の読みやすさにどの程度影響するかを測定するために、訓練中の異なる時点でのサンプルを人間の請負業者に提示し、厳密な45秒の時間制限内で解の有効性を判断するよう求めました。彼らは最終的な答えではなく、与えられた解の正しさを判断するよう求められました（完全な指示とタスク例については付録Iを参照してください）。請負業者は、プルーバー初期化からの解を信頼性高く正解と不正解を区別できましたが、訓練されたプルーバーからの解を提示されると、彼らの精度と速度は顕著に低下しました（図4b,c）。この人間の読みやすさの低下は、モデルが確実に解けない質問に対して最も顕著です（図4d）。
要約すると、正しさのみで訓練された場合、私たちのモデルは有用であるが読みにくい解を生成し、時間制限のある人間が評価するのに苦労することがわかりました。

4.2 チェック可能性訓練のダイナミクス

パフォーマンスを向上させながら読みやすさを維持できるかどうかを調べるために、拡張されたGSMデータセットで複数ラウンドのチェック可能性訓練を実行しました。このセクションでは、プルーバーが署名付き相対説得力（SRC）報酬（式(2)）を使用して訓練される結果を提示します。これは、読みやすさの向上に最も効果的であることがわかった報酬です。
プルーバー訓練フェーズの各ラウンド内で、狡猾なプルーバーと役立つプルーバーの両方が小規模な検証者に対する説得力を単調に向上させます（図5a）。対照的に、プルーバーによって生成される正解の割合は非単調に進化します（図5b,c）。役立つプルーバーは主に正解の解をますます生成しますが、狡猾なプルーバーは最終的に、最初の数ラウンドの訓練で役立つプルーバーからの正解の解の検証者スコアに匹敵するか上回る不正解の解を生成します。役立つプルーバーのパフォーマンスは、おそらく狡猾なプルーバーとの重みの共有のために、各ラウンドの終わりに低下する可能性があります。プルーバーと検証者は各ラウンドの初めに同じ初期化を持ち、ラウンド間の唯一の違いは検証者の訓練に使用されるデータミックスチャーです。
私たちは、上記のダイナミクスが、検証者とプルーバーの有効な計算量のより広い範囲のペアに対しても成り立つかどうかを知りたいと思いました。検証者のサイズを数桁（プルーバーの計算量の10^-3から10^-1.8倍）変更しただけでは、ダイナミクスはほとんど変わりません（図5c）。しかし、はるかに小さい検証者（プルーバーの計算量の10^-4倍）を使用すると、チェック可能性訓練が不安定になり、読みやすさの低い弱いプルーバーを生成します（補足図S4）。同様に、プルーバーのサイズに匹敵する検証者（プルーバーの計算量の10^0倍）を使用すると、後続のラウンドで検証者がより堅牢になることを妨げ、強力なパフォーマンスを持つが読みやすさの低いプルーバーを生成します（補足図S5）。非常に小さな検証者と大きな検証者の性能が低いのは、最適でないハイパーパラメータのせいである可能性を排除できませんが、これらの検証者に対してチェック可能性訓練がうまく機能しない実際の理由もあると疑っています。特に、検証者の能力が非常に限られている場合、根本的に検証を行うことが不可能である可能性があります。検証者がプルーバーと非常に似ている場合、狡猾なプルーバーは検証者の間違いをより簡単にシミュレートできるため（Burns et al., 2023）、検証者が堅牢になるのがより困難になります。
要約すると、私たちのチェック可能性訓練は、役立つプルーバーが数学問題を解くのが上手になる一方で、後続のラウンドで狡猾なプルーバーが不正解だが説得力のある解を生成するのに苦労する特徴的なダイナミクスを示します。

4.3 小規模な検証者に対するチェック可能性と人間に対する読みやすさの評価

チェック可能性訓練の各ラウンドの終わりに、私たちは3つのアーティファクトを得ます：

多様な敵対的例で訓練された検証者
説得力があり、微妙に不正確な解を生成する狡猾なプルーバー
説得力があり、正確な解を生成する役立つプルーバー

このセクションでは、図5に示されたトレーニングラウンドを通じて、検証者の健全性と狡猾および正確な解の読みやすさについて様々な評価を行います。

4.3.1 検証者はチェック可能性訓練を通じてより堅牢になる

狡猾なプルーバー（役立つプルーバーと同等の能力を持つ）からの敵対的入力に対する検証者の健全な評価は、私たちの定義による読みやすさの1つの要件です。チェック可能性訓練を通じて、狡猾なプルーバーが非常に説得力のある不正解の解を発見するのにますます多くのステップを必要とすることを観察しました（図5b）。しかし、この増加が狡猾なプルーバーと役立つプルーバーが重みを共有しているためかどうかは不明確です。したがって、私たちは重みを役立つプルーバーと共有しない狡猾なプルーバーのみを別々に訓練することで、様々な追加の攻撃を行い、検証者がトレーニング中の正確なセットアップを超えて、正しい解と不正確な解を識別できるようになったかどうかを評価します。
私たちは以下の報酬関数を使用して、狡猾なプルーバーのみで3つの攻撃を実行しました：

SRC報酬（2）：役立つプルーバーと狡猾なプルーバーの間の重み共有の効果を取り除くため。
CGC報酬（3）：チェック可能性訓練の異なるバリエーションに対する検証者の健全性の一般化をテストするため。
グッドハーティング報酬（4）：説得力の最適化に対する堅牢性を直接テストするため（Gao et al., 2023）。

私たちは、5ラウンドのチェック可能性訓練にわたって異なるサイズの検証者に対して上記の攻撃を実行しました（図6a）。各敵対者が攻撃を見つけるまでのステップ数が増加することを観察しました。より大きな検証者は攻撃が困難です。例えば、相対サイズ10^-2の検証者に対しては、ラウンド0以降、8kのRLステップ内でどの狡猾な攻撃も攻撃を見つけることができませんでしたが、相対サイズ10^-3の検証者は、ラウンド4までグッドハーティングとSRCの敵対者によって攻撃可能でした。
私たちが実行するテスト攻撃は完全ではなく、検証者がモデルファミリー内のすべての狡猾なプルーバーに対して堅牢であるかどうかを評価する簡単な方法はありません。それにもかかわらず、これらの堅牢性指標間のランク相関は、もし何者かが検証者を欺くために敵対的なプルーバーを訓練する場合、一般的な計算予算の増加を反映しています。検証者の敵対的堅牢性のより完全な評価には、一般的なホワイトボックスおよびブラックボックス攻撃（Zou et al., 2023; Shah et al., 2023; Hayase et al., 2024）の様々なものが含まれるでしょう。
検証者に対する役立つプルーバーのチェック可能性を評価するもう1つの方法は、より高いnでのベストオブn精度（Gao et al., 2023）です。ここでは、検証者によるn個の解の中で最高スコアの解の正しさを分析します（図6b）。異なる平均合格率を持つプルーバーを公平に比較するために、不正解と正解のサンプルをバランス良く収集し、少なくともn/2の正解とn/2の不正解のサンプルを持つ問題のみを使用してベストオブnを評価します。各テスト問題と各ラウンドの役立つプルーバーについて、最大2560個の解をサンプリングします。図6(b)では、各nに対して、現在のラウンドの役立つプルーバーπiからn/2の正解とn/2の不正解の解を組み合わせ、検証者Viのベストオブnパフォーマンスを評価しました。より高いラウンドの(Vi, πi)ペアでバランスの取れたベストオブnパフォーマンスが向上することは、検証者が合格率を制御しても役立つプルーバーの正しさをより良く判断できることを示しています。

4.3.2 狡猾なプルーバーはチェック可能性訓練を通じてますます微妙になる

検証者が敵対的攻撃に対してますます堅牢になることを確立した後、検証者を欺く狡猾な攻撃を分析します。
初期のラウンドの狡猾な不正解の解には、多くの明らかな間違いと非連続性が含まれることがありますが、後のラウンドの不正解の解にはますます微妙な欠陥が含まれています（図7cおよび補足図S2）。このシフトを定量化するために、GPT-4を使用して異なるラウンドからの狡猾な解の小さな部分の妥当性を評価しました（図7a）。解の一部の最小スコアは非常に低いままです（GPT-4が検出可能な欠陥を示します）が、平均スコアはラウンドを通じて増加します（残りの部分の一般的な健全性を示します）。
私たちは、小規模な検証者に対する敵対的攻撃が人間に転移するかどうかに興味がありました。興味深いことに、狡猾な解を時間制限のある請負業者に提示したとき、正しくラベル付けされた解の割合は比較的高かったものの、ラウンドを通じて減少しました（図7b）。これは、チェック可能性訓練によって生成された狡猾なプルーバーが、批評モデルの訓練のための改ざんモデルとして有用である可能性があることを示しています（Saunders et al., 2022; McAleese et al., 2024）。図7bは設計上の欠陥がある可能性のあるパイロット研究からのものであることに注意してください（付録Iを参照）。
要するに、私たちのチェック可能性訓練によって生成された狡猾なプルーバーは、時間制限のある人間にとって発見が非自明な微妙に欠陥のある解を生成することができます。

4.3.3 役立つプルーバーはチェック可能性訓練を通じてますます読みやすくなる

最後に、役立つプルーバーとそのチェック可能性訓練の連続するラウンドを通じての進化に注目します。私たちのフレームワークの重要な要件は、役立つプルーバーが高い正確性を達成するだけでなく、人間の評価者にとっての読みやすさも維持することです。
チェック可能性訓練が進むにつれて、役立つプルーバーがますます高い精度の解を生成することを観察します（図8a）。正しさのみの訓練（図4）とは対照的に、役立つプルーバーからの解は訓練を通じて一貫性を保ちます（図2）。この改善は、プルーバーが検証者からのフィードバックを効果的に活用して問題解決能力を向上させていることを示しています。
役立つプルーバーの解の人間に対する読みやすさを評価するために、再び時間制限のある人間の請負業者による評価を実施しました。プルーバーが連続するラウンドを進むにつれて、請負業者の解の評価における平均精度（図8b）と評価に必要な時間（図8c）の両方が改善することを観察します。訓練の終わりには、役立つプルーバーは初期化の読みやすさに匹敵しながら、実質的に強力なパフォーマンスを達成します。しかし、パフォーマンスは正しさのみで訓練されたプルーバーが達成したパフォーマンス（図4）には及ばず、高いパフォーマンスの達成と読みやすさの維持の間の緊張関係を明らかにしています（Leike, 2022）。この緊張関係を解決する1つの方法は、モデルの思考の連鎖と正しさの証明を分離することであることに注意してください。これについての詳細な議論は付録6.1を参照してください。
要約すると、私たちの発見は、チェック可能性訓練が、出力がますます正確で読みやすくなる役立つプルーバーの開発を促進することを示しています。この二重の改善は、人間の監督とAIシステムとの協力が不可欠なアプリケーションにとって重要です。

5. 代替報酬

ここでは、プルーバー訓練に代替報酬を使用することが収束と読みやすさに影響を与えるかどうかを調査します。

5.1 正解ゲート付き説得力（CGC）報酬によるチェック可能性訓練

正解ゲート付き説得力（CGC）報酬（3）は、説得力よりも正解（役立つプルーバーの場合）と不正解（狡猾なプルーバーの場合）を優先します。役立つプルーバーが不正解の答えを生成する場合（または狡猾なプルーバーが正解の答えを生成する場合）、報酬は一定のペナルティに設定されます。そうでない場合は検証者スコアになります。このセクションでは、CGC報酬が経験的により悪い訓練ダイナミクスにつながることを示します。
CGC報酬訓練の各ラウンドで、狡猾なプルーバーの不正解のサンプルの平均検証者スコアが役立つプルーバーの正解のサンプルと同程度になり、狡猾なプルーバーが低い（<5%）精度に達するまでプルーバーを訓練します。図9はプルーバー訓練のダイナミクスを示しています - 狡猾なプルーバーが成功するまでのRLステップ数はラウンドを通じて一貫して増加しません。CGC報酬の場合、SRC報酬と比較して、狡猾なプルーバーの精度がより迅速に低下し、説得力がより緩やかに上昇することを観察します。私たちの仮説では、この場合、狡猾なプレイヤーと役立つプレイヤーが異なる明確なスタイルのモードをすぐに利用し、したがって狡猾なものと役立つものを分離する明白な偽の統計的手がかりがあり、これは検証者が正解信号を学ぶのに役立ちません。さらなる議論についてはセクションCを参照してください。CGC報酬に対してハイパーパラメータを最適に調整しなかった可能性があり、または検証者がより堅牢になるためにより多くのラウンドが必要である可能性があります。CGC報酬訓練の悪いトレーニングダイナミクスのため、人間による評価は行いませんでした。
それにもかかわらず、この代替報酬の定式化は、SRC報酬を使用して訓練された検証者の堅牢性を評価するための強力な攻撃として機能します（セクション4.3.1）。

5.2 反復的グッドハーティング訓練

プルーバーに割り当てられたロールがない代替訓練スキームを実行します。報酬（4）で訓練され、これは単に検証者スコアです。これを「グッドハーティング」ベースラインと呼びます。通常、人間のフィードバックからの強化学習（RLHF）（Ouyang et al., 2022）では、プルーバーは報酬モデルのスコアを最大化するように直接最適化されるからです。報酬モデルが十分に堅牢でない場合、不完全な代理報酬に過適合してプルーバーが最適化されすぎる可能性があります。この現象は「グッドハーティング」または「報酬ハッキング」と呼ばれます（Gao et al., 2023; Skalse et al., 2022）。検証者は同じプルーバーから生成された不正解と正解のサンプルから学習できます。
より詳細には、各ラウンドで、訓練精度が0.2を下回るまで報酬（4）を使用してPPOでプルーバーを訓練します。次に、訓練中のすべてのプルーバーチェックポイントについて、検証者分割の訓練データ上でバランスの取れた正解と不正解のサンプルをサンプリングします。これらのサンプルは次のラウンドの検証者訓練データセットに混合されます。各ラウンドの検証者訓練では、問題ごとのサンプル総数を一定に保ちます。
図10は訓練ダイナミクスを示しています。プルーバーの訓練精度が最後の80 RLステップで平均0.2を下回ったときに各ラウンドを早期停止します。検証者サイズ10^-4から10^0のプルーバーにわたって、プルーバーが過剰最適化するまでのステップ数は一般的に増加します。サイズ10^-2まで、検証者が大きいほど、8k RLステップ内で完全なグッドハーティング堅牢性に達するために必要な訓練ラウンド数が少なくなります。中程度のサイズ（3 × 10^-3 ～ 10^-2）の検証者が反復的グッドハーティング訓練から最も恩恵を受け、より小さい（≤ 10^-3）および大きい（10^0）検証者の恩恵は少なくなります。さらに、グッドハーティング報酬を使用して訓練された検証者の堅牢性を、SRC報酬（2）および代替CGC報酬（3）からの攻撃に対して評価しましたが、検証者の堅牢性は時々向上しますが、必ずしもそうではありません（図S7a、S7b）。バランスの取れたベストオブn堅牢性は向上します（図S8）。
しかし、グッドハーティング訓練からのサンプルを人間のトレーナーに見せたところ、ラウンド間で人間の判断精度に有意な差はありませんでした（図S6）。ただし、図S6は設計上の欠陥がある可能性のあるパイロット研究からのものです（付録Iを参照）。全体として、反復的グッドハーティング訓練に関する結果は、ある程度まで検証者の健全性を向上させることを示していますが、人間の読みやすさを向上させることを示す十分な証拠はありません。

6. 議論

6.1 限界

自然言語による正当化が可能な領域のみ。数学の領域を研究したのは、自然言語による説明が一般的であり、数学的結論への信頼を構築するためにしばしば必要とされるからです。しかし、一部の領域では自然言語で結論をサポートすることが困難です。例えば、特定の顔を認識することは人間にとって簡単ですが、なぜその特定の顔が特定の人物に属するかを自然言語で他人に伝えるのは難しいです。
正解の答えと一般化への依存の必要性。私たちのセットアップの前提条件の1つは、プルーバーによって生成された解の答えの正しさを証明できることです。小学校レベルの数学の領域では、既知の正解を持つ問題の訓練データセット（Cobbe et al., 2021）に依存しています。正解の収集が困難または高価すぎる領域では、このセットアップの関連性が低くなると予想されます。この場合の1つのアプローチは、既知の正解を持つ問題の解からの読みやすさの好ましい領域外一般化特性に期待することかもしれません。この論文では1つのデータセットでのみ訓練しているため、領域外一般化を研究していませんが、多様な領域のセットで訓練することで、正解ラベルのある領域からラベルのない領域への良好な一般化につながる可能性があると予想しています（Burns et al., 2023）。
モデルの思考の連鎖と読みやすい解の混同。CoTを読みやすくするように訓練することで、プルーバーの精度を潜在的に制限した可能性があります。より良い方法は、CoTを使用して精度を最大化するために最初のモデルを訓練し、次に答えを生成するために使用されたCoTを人間に読みやすい正当化に変換する2番目のモデルを訓練することかもしれません。したがって、精度と読みやすさのトレードオフの測定が過度に悲観的である可能性があります。プルーバーは精度をほとんどまたは全く犠牲にすることなく読みやすさを達成できる可能性があります。正しさのみのベースラインについては、より読みやすいが精度の低いチェックポイントで早期停止することができたかもしれません。しかし、読みやすさのための早期停止を行う原則的な方法はわかりません。
データセットの多様性と難しさ。経験的研究を1つのデータセット（GSM）でのみ実施しました。このデータセットは比較的簡単で、解はかなり標準化されています。ChatGPTを使用してこのデータセットを拡張すると、一部の不正確なラベルが発生する可能性がありますが、予備的なデータ分析に基づいて、合成データと実際のデータで訓練された検証者のテスト精度に大きな違いは見られませんでした。より難しい数学データセットやコーディング、さらには人間の選好データ（Ouyang et al., 2022）のようなより曖昧な領域にチェック可能性訓練フレームワークを拡張したいと考えています。私たちの方法は、有限の最終答えラベルのセットがある限り完全に一般的です。
人間が書いた数学的導出による初期化。私たちのプルーバー初期化は、GSMで比較的高いパフォーマンスを持っています。正しい形式を学ぶために様々な数学データで軽く微調整されたプルーバーを使用し、微調整データセットにはGSM訓練セットデータの一部が含まれています。これは結果に質的な影響を与えず、役立つプルーバーが正解を生成するのを容易にするだけだと信じています。図S9は、数学的微調整なしのベースモデルでの初期化が、質的に同様の訓練ダイナミクスにつながることを示しています。
異種の実験セットアップ。本論文全体で提示されている異なる訓練スキームに対して異なる停止基準を持っています。特定の訓練スキームでは各ラウンドで固定数のRLステップ（図6a、5cで4kステップ、図4、5c、S4、S5で8kステップ）でプルーバーを訓練しましたが、図5、9、10では早期停止基準が満たされるまで訓練しました（基準はそれらのセクションですでに議論されています）。実験では、早期停止と非早期停止のラウンド間で質的な違いは観察されませんでした。
ハイパーパラメータ。この論文のすべての訓練スキームについて、すべてのハイパーパラメータを徹底的に調整しませんでした。調整した主なハイパーパラメータは、前のラウンドからのサンプルの比率です。SRC報酬に基づいて1つの検証者サイズ（10^-3）の比率を、訓練の堅牢性がラウンドを通じて増加するかどうかに基づいて調整し、SRCおよびCGC報酬を使用する他のサイズに同じ比率を使用しました。これにより、他の訓練スキームの堅牢性と読みやすさが悪化する可能性があります。反復的グッドハーティング訓練については、1つの検証者サイズ（10^-3）の比率を別々に調整しました。プルーバーと検証者の訓練には、最適化器、学習率、KL正則化係数などのデフォルトのChatGPT事後訓練ハイパーパラメータを使用しました。

6.2 今後の研究

すべての問題に対して訓練時に正解ラベルが利用可能な設定を研究しました。より現実的なシナリオは、すべての答えに信頼できる最終的な正解ラベルがない場合です。この場合、検証者は一貫性（Wang et al., 2023）や説得力（Khan et al., 2024）などの教師なし信号に依存することになります。読みやすさを向上させるための教師なし方法は重要な今後の方向性です。
もう1つの方向性は、読みにくい解を読みやすい解に変換する方法の開発です。モデルが最初に問題を解くために使用するCoTは、より小さなモデルにとって読みやすいものではありませんが、「スクラッチスペース」CoTを適切に書かれた証明に変換する翻訳モデルを訓練できます。このアプローチは、CoTに直接最適化圧力をかけることがプルーバーのパフォーマンスを制限し、欺瞞的なアラインメント（モデルが自身の意図を隠すこと）を悪化させる可能性があるため、CoTを直接読みやすくするように訓練するよりも好ましい可能性があります（Denison et al., 2024; Hubinger et al., 2024）。
私たちが検討する訓練スキームは、単一ターンの同時ゲームの適応です。ChatGPTのような対話型ツールを使用すると、検証者はより多くのラウンドでプルーバーと対話でき、複雑性理論に基づいてサンプル効率が大幅に向上するはずです（Goldwasser et al., 2021）。マルチターンプルーバーゲームの例として、「マインドチェンジング」ゲームがあります：二値の結果予測の場合、プルーバーは文脈内で答えが真/偽であると検証者を最大限に説得しようとします。これは市場メイキング提案（Hubinger, 2020）に似ています。
この論文では主に小規模モデルに対する読みやすさを研究しました。しかし、最終的に重要なのは人間に対する読みやすさであるため、将来の研究では、どのタイプの支援が大規模モデルの解の妥当性を人間が判断するのに最も役立つかをより体系的に研究すべきです。より広範な人間の研究が実り多いものになると予想しています。

6.3 結論

小学校レベルの数学の解を判断する具体的な設定でモデルのパフォーマンスと解の読みやすさの間の緊張関係を提示し、このトレードオフに対処する1つの方法を提案しました。私たちの結果は、将来LLMが人間よりも能力が高くなっても、LLM出力への信頼を確立するための有望な兆候を示しています。正解ラベルがほとんどまたは全くない状況で、人間の判断の読みやすさを向上させるための半教師あり/教師なしのセットアップに関する将来の研究を触発することを願っています。

7. 謝辞

価値ある技術的洞察と議論のためにJeff Wuに感謝します。この論文の初期のドラフトに対する有益なフィードバックを提供してくれたBoaz Barak、Jeff Wu、Jenny Nitishinskaya、John Schulmanに感謝します。インフラのサポートについてPlatformチームにも感謝します。人間のデータ収集の取り組みに貢献してくれたMati Roy、Spencer Papay、およびすべての請負業者に感謝します。
$${ \text{Equation} }$$

この記事が気に入ったらサポートをしてみませんか？