STaR: 自己教師あり推論器（フルバージョン）

2024年7月13日 13:55

原論文： 2203.14465 (arxiv.org)

推論による推論の自己学習

Eric Zelikman1, Yuhuai Wu12, Jesse Mu1, Noah D. Goodman1
1スタンフォード大学コンピュータサイエンス学科
2Google Research
{ezelikman, yuhuai, muj, ngoodman}@stanford.edu

概要

数学や常識的な質問応答などの複雑な推論タスクにおいて、段階的な「思考の連鎖」根拠を生成することで言語モデルの性能が向上します。しかし、現在の言語モデルの根拠生成の誘導には、大規模な根拠データセットの構築か、少数ショット推論を使用して精度を犠牲にするかのどちらかが必要です。我々は、少数の根拠例と根拠のない大規模データセットを反復的に活用し、徐々により複雑な推論を実行する能力を自己学習する技術を提案します。この「自己教師あり推論器」(STaR)技術は、単純なループに基づいています：少数の根拠例でプロンプトを与えて多くの質問に答えるための根拠を生成する；生成された答えが間違っている場合は、正解を与えて根拠を再生成する；最終的に正解を導いたすべての根拠で微調整する；これを繰り返す。我々は、STaRが最終的な答えを直接予測するようにファインチューニングされたモデルと比較して、複数のデータセットで性能を大幅に向上させ、CommonsenseQAでは30倍大きな最先端の言語モデルをファインチューニングしたものと同等の性能を発揮することを示します。このように、STaRは自身が生成した推論から学習することでモデルを改善することを可能にします。

1. はじめに

人間の意思決定は、しばしば長い思考の連鎖の結果です[1, 2]。最近の研究では、明示的な中間推論（「根拠」）が大規模言語モデル（LLM）の性能も向上させることが示されています[3-8]。例えば、[5]は、「スクラッチパッド」を明示的に使用するようにトレーニングされたLLMが、算術において完璧な分布内性能と強力な分布外汎化を達成できることを示しました。一方、答えを直接予測するようにトレーニングされたモデルは、どちらも達成できませんでした。これらの研究は、最終的な答えを出す前に明示的な根拠を生成すること（「根拠生成」）が、数学的推論、常識推論、コード評価、社会的偏見の推論、自然言語推論など、多様なタスクにわたってLLMにとって価値があることを示唆しています。

しかし、根拠生成を誘導するための2つの主要な方法には、どちらも重大な欠点があります。

根拠生成へのアプローチの1つは、人間のアノテーターによる手動または手作業のテンプレートを使用した自動的な根拠のファインチューニングデータセットの構築です[3-5, 9]。手動の方法は高価であり、興味深い問題ごとにそのようなデータセットを構築することは不可能です[3]。一方、テンプレートベースの方法は自動生成された根拠に依存しますが、一般的な解決策が既に知られている場合[5]や、合理的なハードコーディングされたヒューリスティックが作成できる場合[4]にのみ機能します。

もう1つの選択肢は、言語モデルのプロンプトに少数の根拠例のみを含めることで、文脈内学習を活用することです。これは、根拠なしのプロンプト（「直接」プロンプト）と比較して、数学的および記号的推論タスクの精度を向上させることが示されています[5, 6]。しかし、根拠を使用した少数ショット技術は、根拠を使用しない対応するものよりも一般的に優れているものの、より大きなデータセットを使用して最終的な答えを直接予測するようにファインチューニングされたモデルよりも大幅に性能が劣ります[5, 6]。

図1: STaRの概要とCommonsenseQAにおけるSTaRが生成した根拠の例。微調整の外部ループを点線で示しています。質問と正解はデータセットに存在することが想定されており、根拠はSTaRを使用して生成されます。

本論文では、異なるアプローチを採用します：LLMの既存の推論能力を活用することで、高品質な根拠を生成する能力を反復的に自己学習します。具体的には、大規模言語モデルに少数ショットでプロンプトを与えて自己生成の根拠を生成し、正解を導いた根拠でモデルの能力をさらに洗練させます。この手順を繰り返し、改善されたモデルを使用して毎回次のトレーニングセットを生成します。これは相乗的なプロセスであり、根拠生成の改善がトレーニングデータを改善し、トレーニングデータの改善がさらに根拠生成を改善します。

しかし、このループは最終的に、解決できない新しい問題に対してトレーニング信号を直接受け取らないため、失敗することがわかりました。この問題を克服するために、我々は合理化を提案します：モデルが正しく答えられなかった各問題に対して、モデルに正解を提供することで新しい根拠を生成します。これにより、モデルは逆向きに推論することができます—正解が与えられれば、モデルはより簡単に有用な根拠を生成できます。これらの根拠はトレーニングデータの一部として収集され、多くの場合、全体的な精度を向上させます。

したがって、我々は自己教師あり推論器（STaR、図1）方法を開発しました。これは、モデルが自身の根拠を生成することを学習しながら、徐々に難しい問題を解決することを学習できるスケーラブルな自己学習方法です。我々の方法では、以下のプロセスを繰り返します：各イテレーションで、まず現在のモデルの根拠生成能力を使用してデータセットを解決することでファインチューニングデータセットを構築します。次に、モデルが解決できなかった問題の正解を正当化することで、このデータセットを拡張します。最後に、結合されたデータセットで大規模言語モデルをファインチューニングします。

算術、数学の文章題、常識推論にSTaRを適用すると、少数のフューショットプロンプトを大規模な根拠データセットに効果的に変換し、劇的な性能向上をもたらすことが観察されました。CommonsenseQA[10]では、STaRがフューショット・ベースライン（+35.9%）と直接答えを予測するようにファインチューニングされたベースライン（+12.5%）の両方を上回り、30倍大きなファインチューニングされたモデル（72.5% vs. 73.0%）と同等の性能を発揮することがわかりました。

したがって、我々は以下の貢献をします：

初期の根拠を含む少数の例から反復的に根拠データセットを生成する自己学習メカニズムを提案します—新しい根拠の正確性をチェックする必要はありません。
根拠生成を、モデルがヒントなしで根拠を思いついたかのようにファインチューニングされる答えを正当化するタスクである合理化で補完します。合理化が自己学習プロセスを加速し改善することを示します。
数学的推論と常識推論の両方の領域で、さまざまなアブレーションを用いてこれらの技術を評価します。
我々の知る限り、事前学習された大規模言語モデルが反復的にその言語モデリング能力を使用して自身を改善することを可能にする最初の技術を提案します。

2. 背景と関連研究

文脈内学習

最近、大規模言語モデルの文脈内学習能力を探究する一連の研究が登場しています[11, 12]。本質的に、文脈内学習は少数ショット学習を言語モデリングの問題として扱い、文脈（つまりプロンプト）にいくつかの例を示し、モデルにパターンを学習して新しい例に適用させます。言語モデリング目的に基づく文脈内学習をベイズ推論の観点から研究したものもあれば[13]、「誘導ヘッド」の観点からより機械的にプロセスを説明しようとしたものもあります[14]。さらに、プロンプト構成の違いが少数ショットの性能に劇的な影響を与えることが知られています。少数ショットのプロンプトを埋め込み空間で最適化できる「ソフトプロンプト」に置き換えると、顕著な改善が見られることもわかっています[15]。質問の表現を強調する代わりに、我々はモデル出力に焦点を当てています。特に、結論に至る前に問題を推論するモデルの能力に焦点を当てています。

根拠

言語モデルの性能に対する根拠の影響に関する初期の研究の1つは[3]でした。これは、答えの前に明示的な根拠を含むデータセットで言語モデルをトレーニングすると、モデルの最終的な答えの生成能力が向上することを示しました。しかし、これには何千もの訓練例に人間の推論を手動でアノテーションする必要がありました。最近、[5]は、段階的な「スクラッチパッド」を使用してファインチューニングされたLLMの性能と一般化が、算術、多項式評価、プログラム評価などのタスクで向上することを示しました。同様に、[6]は、単一の少数ショットの「思考の連鎖」推論プロンプトを使用して、ファインチューニングなしで一連のタスクでモデルの性能を向上させました。最後に、[16]は、カリキュラム学習アプローチが形式的な数学問題の解決に役立つことを示しました。ただし、1）それらがLean（定理証明言語[17]）に翻訳されている、2）証明の妥当性を直接評価できる、3）各問題に対して多数の潜在的な解決策をサンプリングできる、4）別の価値関数モデルをトレーニングしている、5）すでに大規模な数学データセットでファインチューニングされたGPT-f[18]から始めている、という条件がすべて満たされている場合に限ります。これらの条件がすべて適用されない多くのドメインがあることに注意してください。さらに、根拠がこの有益な効果を持つ理由を説明しようとする研究もあります：潜在変数モデルの観点から影響を分析したもの[19]や、中間タスク監督の利点の形式的な証明を提供したもの[20]があります。

反復学習

解決策や成功した方法が見つかった場合に、それを利用してさらなる解決策を見つけるための様々な反復学習アルゴリズムが提案されています[21, 22, 16]。[21]は、我々のアプローチの inspiration となるExpert Iteration（ExIt）という強化学習技術を導入しました。本質的に、これは「見習い」によるセルフプレイのループで構成され、その後、より遅い「専門家」からのフィードバックによる模倣学習が行われ、その後、見習いが改善されて専門家に置き換わります。[16]はExItを形式的推論に応用し、[22]はモジュラーネットワークを使用して視覚的質問応答に反復学習を適用しています。これらのネットワークは構成的に組み合わせることができます。STaRとエキスパート反復法[21]には、さらに類似点があります。例えば、生成された例を、その最終的な答えが目標と一致するかどうかに基づいてフィルタリングすることは、エキスパートのフィードバックと見なすことができます。ただし、我々には固定の「エキスパート」があり、別の価値関数をトレーニングしません。

自然言語による説明

自然言語による説明は、説明可能な機械学習の観点からも議論されており、推論ではなく正当化に焦点を当てています[23, 24]。この研究の動機は主に説明可能な意思決定に基づいており、[3]と同様に、一般的に事後の説明を要求してもモデルの性能は向上しないことがわかっています。

3. 方法

3.1 根拠生成の自己学習（合理化なしのSTaR）

事前学習されたLLM $${M}$$ と、答え $${y}$$ を持つ問題 $${x}$$ の初期データセット $${D = {(x_i, y_i)}^D_{i=1}}$$ が与えられています。我々の技術は、中間的な根拠 $${r}$$ を持つ少数の例のプロンプトセット $${P = {(x^p_i, r^p_i, y^p_i)}^P_{i=1}}$$ から始まります。ここで $${P \ll D}$$ です（例えば $${P = 10}$$）。標準的な少数ショットプロンプトのように、このプロンプトセットを $${D}$$ の各例に連結します。つまり、$${x_i = (x^p_1, r^p_1, y^p_1, ..., x^p_P, r^p_P, y^p_P, x_i)}$$ とします。これにより、モデルは $${x_i}$$ に対する根拠 $${ˆr_i}$$ に続いて答え $${ˆy_i}$$ を生成するよう促されます。正解を導く根拠は、間違った答えを導く根拠よりも質が高いと仮定します。したがって、生成された根拠をフィルタリングして、正解を導いたもの（$${ˆy_i = y_i}$$）のみを含めます。このフィルタリングされたデータセットでベースモデル $${M}$$ をファインチューニングし、新しくファインチューニングされたモデルで新しい根拠を生成することでこのプロセスを再開します。性能が頭打ちになるまでこのプロセスを繰り返します。このプロセス中、新しいデータセットを収集するたびに、オーバーフィッティングを避けるために、1つのモデルを継続的にトレーニングするのではなく、元の事前学習されたモデル $${M}$$ からトレーニングします。このアルゴリズムの概要をアルゴリズム1に示します。

STaRは、RL型のポリシー勾配目的の近似と見なすことができます。これを理解するために、$${M}$$ を離散潜在変数モデル $${p_M(y|x) = \sum_r p(r|x)p(y|x,r)}$$ と見なすことができます。つまり、$${M}$$ はまず潜在的な根拠 $${r}$$ をサンプリングしてから $${y}$$ を予測します。ここで、指示関数報酬 $${\mathbb{1}(ˆy = y)}$$ が与えられた場合、データセット全体の期待総報酬は以下のようになります：

$$
J(M, X, Y) = \sum_i \mathbb{E}_{ˆr_i,ˆy_i \sim p_M(\cdot|x_i)} \mathbb{1}(ˆy_i = y_i)
$$

$$
\nabla J(M, X, Y) = \sum_i \mathbb{E}_{ˆr_i,ˆy_i \sim p_M(\cdot|x_i)} [\mathbb{1}(ˆy_i = y_i) \cdot \nabla \log p_M(ˆy_i, ˆr_i | x_i)]
$$

ここで、勾配はポリシー勾配の標準的な対数微分トリックを使用して得られます。指示関数は、正解 $${y_i}$$ に導かないすべてのサンプリングされた根拠の勾配を破棄することに注意してください：これがSTaRのフィルタリングプロセス（ライン5）です。したがって、STaRは $${J}$$ を以下のように近似します：(1) この推定の分散を減らすために（根拠の潜在的に偏った探索の代償として）$${(ˆr_i, ˆy_i)}$$ のサンプルを貪欲にデコードし、(2) 同じバッチのデータに対して複数の勾配ステップを実行します（一部のポリシー勾配アルゴリズム[25]と同様）。これらの近似により、STaRは標準的なLLMトレーニング機構で実装できる単純で広く適用可能な方法になります。将来の研究では、STaRと上記のRL目的との関連をより詳細に調査する必要があります。

3.2 合理化

根拠生成の自己学習アルゴリズムには制限があります。モデルは正しく答えた例でのみトレーニングされるため、トレーニングセットの新しい問題を解決できなくなると改善が止まります。これは基本的に、アルゴリズムが失敗した例からトレーニング信号を得られないためです。[3]にインスパイアされ、我々は「合理化」と呼ぶ技術を提案します。具体的には、モデルに答えをヒントとして提供し、前の根拠生成ステップと同じスタイルで根拠を生成するよう求めます。答えが与えられれば、モデルは逆向きに推論できるため、正解に導く根拠をより簡単に生成できます。例えば、図2では、プロンプトで「(b) grocery cart」が正解であるというヒントを提供して根拠を生成しています。我々は、モデルが根拠生成で解決できなかった問題に合理化を適用します。合理化で生成された根拠をデータセットに追加する際、対応するプロンプトにヒントを含めません。これは、モデルがヒントなしで根拠を思いついたかのようにします。フィルタリング後、以前に生成されたデータセットと合理化で生成されたデータセットを組み合わせてファインチューニングします。

図2: 合理化に使用する少数ショットのプロンプトヒント（根拠生成には使用しない）。[6]からの根拠を使用し、そのヒントを緑色で示しています。その後に、モデルが生成した根拠と回答が続きます。

アルゴリズム1 STaR

入力 M: 事前学習済みLLM; データセット D = {(x_i, y_i)}_(i=1)^D (少数のプロンプトを含む)

1: M_0 <- M # 元のモデルをコピー
2: for n in 1...N do # 外部ループ
3:     (r_i, y_i) <- M_(n-1)(x_i)   ∀i ∈ [1, D] # 根拠生成を実行
4:     (r_i^rat, y_i^rat) <- M_(n-1)(add_hint(x_i, y_i))   ∀i ∈ [1, D] # 合理化を実行
5:     D_n <- {(x_i, r_i, y_i) | i ∈ [1, D] ∧ y_i = y_i} # 正解を使用して根拠をフィルタリング
6:     D_n^rat <- {(x_i, r_i^rat, y_i) | i ∈ [1, D] ∧ y_i ≠ y_i ∧ y_i^rat = y_i} # 合理化された根拠をフィルタリング
7:     M_n <- train(M, D_n ∪ D_n^rat) # 正解に基づいて元のモデルを微調整 - 内部ループ
8: end for

アルゴリズム1に完全なアルゴリズムを示します。青色の部分が合理化に対応しています。これらの部分がない場合、アルゴリズム1は合理化なしのSTaRに対応します。図1に概要図を示します。合理化で生成されたデータセットでファインチューニングすることには、モデルを他の方法ではファインチューニングデータセットに現れない難しい問題にさらすという重要な利点があります。これは、モデルが失敗した問題について「枠外で考える」ように挑戦することと理解できます。合理化の二次的な利点はデータセットサイズの増加です。

4. 実験

我々の実験では、STaRの幅広さを示すために、算術、常識推論、小学校の数学に焦点を当てています。特に、算術については[5]にインスパイアされたセットアップに従います。常識的な質問応答については[13, 6]に従い、この領域で広く使用されている多肢選択データセットであるCommonsenseQA（CQA）[10]を使用します。小学校の数学については、[9]のGSM8Kを使用します。

4.1 実験プロトコル

我々はGPT-Jをベース言語モデルとして使用し、GPT-Jリポジトリのファインチューニングスクリプトを使用しました[26]。GPT-J（6Bパラメータモデル）を選んだ理由は、チェックポイントとファインチューニングコードが公開されており[26]、モデルが自己学習するのに十分な非自明な質の根拠を生成できるほど大きいためです。GPT-Jと我々のファインチューニングに関するより詳細なハイパーパラメータは付録Hに含まれています。[26]のデフォルト設定に従い、100ステップの学習率ウォームアップを実行し、その後一定の学習率を使用します。特に断りのない限り、最初の外部ループで40トレーニングステップから始め、外部ループごとにファインチューニングトレーニングステップ数を20%ずつ増やします。一般に、最初はよりゆっくりとトレーニングすることが、最終的にモデルの性能に有益であることがわかりました。計算上の制約のため、これ以上の改善は今後の研究に委ねますが、徹底的なハイパーパラメータ探索によってさらなる改善が可能であると予想しています。

算術問題については、まず[5]で導入されたフォーマットで50,000のランダムにサンプリングされた質問（桁数に対して一様）のデータセットを生成します。算術の各外部ループイテレーションでは、データセットから10,000問題をサンプリングします。対応する少数ショットプロンプトには、各桁について10のランダムな少数ショット根拠例を使用します。CommonsenseQAのトレーニングセットの9,741問の各質問について、質問を少数ショット根拠プロンプトに追加し、モデルにその質問の根拠と答えを生成するようプロンプトします。CQAの少数ショットプロンプトについては、[6]で使用されたのと同じ10の質問から始め、不正解を修正し、関連する知識をより明示的に参照するように根拠を少し修正しました。これらの修正されたプロンプトを付録Bに含めています。これらのプロンプトが我々の完全な説明セットとなります。性能が飽和するまでSTaRを実行し、最良の結果を報告します。

合理化を実行する際、最初のイテレーション以降の外部ループイテレーションで少数ショットプロンプトを含めるか省略するかの選択は、手法の最終的な性能に大きな影響を与えないことがわかりました。ただし、セクション5でさらに議論するいくつかのニュアンスがあり、特に断りのない限り少数ショットプロンプトを使用しています。

4.2 データセット

算術

算術タスクは、2つのn桁の整数の和を計算することです。[5]の説明に基づいてデータセットを生成し、図3にスクラッチパッドの例を視覚化しています。「Target:」までとそれを含むすべてが、プロンプトの一部として与えられ、モデルはスクラッチパッド（開始/終了は「<scratch>」で示される）と最終的な答えを生成するよう求められます。これは[5]と同様です。スクラッチパッドの各行は、最後の桁から最初の桁までの各桁のペアの和、累積する答えの最終桁、前のペアの和が10以上かどうかに対応する桁上がりを示しています。1から5桁の少数ショットプロンプトを含めています。合理化を実行する際は、「Target」の後に正解を含め、モデルにスクラッチパッドを生成し、その後スクラッチパッドに続いて正解を再現するよう求めます。

CommonsenseQA

多肢選択の常識推論タスクであるCommonsenseQA [10]（CQA）は、100万以上のノードを持つ概念とその関係のセマンティックグラフであるConceptNet [28]から構築されています。[10]は、各質問に対してConceptNetの「ターゲット」概念のセットを特定しました。ここで、ターゲット概念は1つの「ソース」概念と意味的関係を共有しています。次に、各質問はクラウドソーシングされ、読者が1つのターゲット概念を特定できるようにしながら、ソース概念に言及しています。さらに、2つの誤答選択肢が追加されています。データセットには12,247の質問があり、それぞれ5つの選択肢があります。9,741がトレーニングセット、1,221が開発セット、1,285が（非公開の）テストセットです。

ConceptNetの幅広い多様性に対応して、CQAには標準的な世界知識に基づく常識的推論能力を必要とする多様な質問が含まれており、人間の性能は89%です[10]。CQAには性別を含むいくつかの次元に沿ってさまざまなバイアスが含まれていることが多くの人によって指摘されています[3]。これが我々の方法にどのような影響を与える可能性があるかを付録Gで議論します。また、多くのタイポや根本的に曖昧な質問も存在します。これらの問題にもかかわらず、一般的な質問応答データセットとして、一般的な世界知識と単純な推論の両方に依存しているため、我々の方法のテストベッドとして適していると考え、使用しています。

Grade School Math (GSM8K)

Grade School Math（GSM8K）データセットでも評価を行いました。このデータセットには、7,473のトレーニング例と1,319のテスト例が含まれており、小学校レベルの文章題が自然言語で提示されています[9]。これらの数学問題は、最終的な答えに到達するために2から8回の計算ステップが必要です。このデータセットは、算術と常識推論に必要なスキルを組み合わせています。

4.3 記号推論：算術の結果

外部ループの各イテレーションにわたる1-5桁のモデルの精度を図4にプロットしています。STaRを16イテレーション実行した後、全体の精度は89.5%です。参考までに、根拠なしで10,000の例で5,000ステップトレーニングされたベースラインは76.3%の精度を達成します。

注目すべきは、算術問題に対する少数ショットの精度が非常に低いことです。根拠があっても、2桁の加算の精度は1%未満で、それ以上の桁数では精度がほぼゼロです。

合理化を用いると、精度は特に急速に向上することができます。モデルが生成したスクラッチパッドで1回のファインチューニングイテレーションを行うと、2桁の加算は1%未満から32%に改善します。合理化なしでは、性能改善は段階的です：一般に、モデルは(n-1)桁の和で良好な性能を発揮するまで、n桁の和で低い性能を示します。合理化を用いると、モデルは一度に多くの桁数を学習できますが、精度は均等ではありません。合理化により多くの問題を少数ショットで解決できるため、300ステップのトレーニングからSTaRトレーニングを開始します（なお、合理化なしでこれを行うと1桁の加算でオーバーフィッティングが発生します）。そして、イテレーションごとにトレーニングを20ステップずつ増やします。

また、20回目のイテレーション前に追加の桁数でSTaRの事前トレーニングを合理化とともに継続する実験も行いました。各イテレーションでのトレーニング例の総数を固定したままです。これにより、最初のセットの桁数の性能が急速に向上するだけでなく、トレーニング中に見たことのない9桁と10桁の例を評価すると、モデルはこれらの分布外の問題の多くを正常に解決できることがわかりました。図5に示すように、これらの桁数の導入によりトレーニングが不安定になるように見えますが、正確な原因は不明です。

4.4 自然言語推論：常識的質問応答

CommonsenseQA（CQA）の設定では、いくつかの新しい課題が導入されます。算術タスクでは、推論ステップでの不正確なスクラッチパッド、そしてより少ない程度で合理化ステップでの不正確なスクラッチパッドは、非常に高い確率で不正解の答えにつながりました。一方、CQA問題は5択の多肢選択問題です。したがって、推論の質に関係なく、ランダムに約20%の確率で正解を得ることになります。さらに、[10]が示したように、いくつかの単純なヒューリスティック（例：意味的類似性）により、推論なしでもこれを約30%まで意味のある程度まで改善できます。

実験プロトコルで説明したようにこのデータセットを評価し、いくつかのベースラインと比較します。最初のベースラインは、最終的な答えを直接出力するようにGPT-Jをファインチューニングしたもので、これを「GPT-J Finetuned」と呼びます。また、[29]からの最終的な答えを直接予測するようにファインチューニングされたGPT-3と、[6]からの思考の連鎖（CoT）根拠で少数ショットプロンプトを与えられた137Bパラメータのラムダモデルとも比較します。

表1に示すように、合理化なしのSTaRは、データセット全体で直接最終的な答えに対してファインチューニングされたGPT-Jを上回りました。これは、より少ないデータでトレーニングしたにもかかわらずです。合理化を含めることで、この性能は72.5%まで向上し、30倍大きなGPT-3の73%にはるかに近づきました。

予想通り、STaRは少数ショットのベースラインも上回りました。これには、はるかに大きな137BのLaMDAモデル[30, 6]も含まれます。STaRをより高い少数ショット性能を持つモデルに適用すれば、精度がさらに向上すると予想されます。

ケーススタディ

根拠の質を判断するのは難しいことに注意してください：算術の場合、それらを正解の根拠と比較することができますが、CQAの場合、評価は必然的に定性的なものになります。このため、図7にケーススタディを含めています。提供された根拠は一般的に一貫性があり、少数ショットの根拠と同様の構造を持っていることが観察されます。以下の2つの観察を行います：

STaRでトレーニングした後、モデルは新しい問題を解決する合理的な根拠を生成できるようになりました。これが観察された性能向上の一部を説明します。
また、少数ショットの方法で生成された根拠よりも、STaRが根拠の質を向上させた例が多く見られました。

人間による評価

STaRが、少数ショットのプロンプトで最初に正しく答えられた問題でさらに推論の質を向上させる可能性があるという観察に基づいて、予備的な定性的分析を行いました。少数ショットCoTとSTAR生成の根拠から、両方が正しく答えた質問について50の根拠をランダムに選択しました。また、[3]からこれらの問題に対する人間が生成した根拠も選択しました。次に、Prolific [31]の20人のクラウドワーカーにランダムな10問のサブセットと根拠をランダムな順序で提示し、どの根拠が最も答えを正当化していると感じたかに基づいてランク付けするよう依頼しました。参加者は、少数ショットの根拠よりもSTAR生成の根拠を30%高くランク付けする傾向がありました（p = .039）。これは、ケーススタディで言及したように、STARが根拠生成の質を向上させることができることを示しています。

また、参加者はSTAR生成の根拠を人間が生成した根拠よりも74%高くランク付けする傾向がありました（p < .001）。ただし、これが人間レベルの根拠生成性能を示していると考えているわけではありません。むしろ、高品質の根拠を引き出すことの難しさを示していると考えています。テストプロンプトを付録Cに再現し、クラウドソーシングされた説明データセットの限界についてさらに詳しく説明しています。

失敗例

最後に、多くの興味深い失敗例を発見しました。その多くは標準的な論理的誤謬に対応していました。例えば、モデルはしばしば質問のトピックに関連する記述をしますが、それらは答えが真であるべき理由の実際の議論ではありませんでした。時には、モデルは説明せずに質問が答えを暗示していると主張することもありました。他の時には、特にトレーニングの初期段階で、モデルは一般的な記述をするのではなく、特定の個人に関する知識を持っているかのように答えました - 例えば、「城は王が安全だと感じる場所である」の代わりに「王の城は彼が安全だと感じる場所である」などです。例と

エラーの分析を付録Aに提供しています。

少数ショットプロンプトトレーニング

ファインチューニング中に少数ショットプロンプトを含めること[12]は、有意義な性能向上をもたらすように見えます（合理化なしで60.9%から68.8%へ、合理化ありで69.9%から72.5%へ）。したがって、一般的にトレーニングの少なくとも一部でその使用を提案しますが、セクション5でいくつかの注意点について議論します。

4.5 言語における数学的推論：Grade School Math

GSM8Kでも、STARが根拠を持つ少数ショットや答えを直接予測するためのトレーニング（根拠なし）を大幅に上回る性能を示すことがわかりました。これを表2に示し、少数ショットプロンプトを付録Iに含めています。このタスクでは、合理化の使用が性能を大幅に向上させないことを観察しています。なお、トレーニングでは、30回目のイテレーション（7912ステップ後）でトレーニングステップ数を制限する必要がありました。これは、トレーニングプロセスが禁止的に長くなるのを防ぐためです。結果は、合理化なしのSTARで36イテレーション後、合理化ありでさらに10イテレーション後に達成されました。

ほとんどの場合、モデルが生成する計算ステップの数は、人間が取ったステップ数と一致します（一般にすべてのイテレーションで53%から57%の一致）。これを図6で明示的に視覚化しています。正解とモデルが計算ステップ数で一致しない場合、モデルは通常より少ないステップ数を使用することがわかります。これは時にモデルがステップをスキップするためですが、時には異なる解決策を見つけることもあります。付録Jで例を示していますが、そこではモデルが冗長な情報を無視し、7ステップの問題を1ステップで解決しています。

5. 議論と課題

合理化の影響

本質的な問題は、合理化がどのような役割を果たすかということです。直感的には、合理化によりモデルは解決策を逆エンジニアリングしたり、各ステップが結論をより可能にするかどうかを識別するヒューリスティックを提供したりすることができます。これは、最終的な結果は分かっているが、良い正当化を導き出すのが難しい現実世界の問題と並行しています。数学的な観点から見ると、根拠生成はモデル $${M}$$ が提供する分布 $${p(r|x)}$$ から根拠をサンプリングしますが、合理化は答えを条件付けることで、代替の分布 $${p(r|x,y)}$$ にアクセスできます。これは根拠のより良い探索空間かもしれません。そうすると、合理化は式(1)の目的関数のオフポリシー推定としてフレーム化できます。ヒントを付加したモデルを提案分布としてサンプリングします。今後の研究では、合理化とこれらのRL目的との間のより多くの関連性を確立し、より一般的にいつどのように合理化が学習を改善するかを検討する必要があります。

さらに、サンプリング温度が低いため、合理化なしの出力は、モデルがその答えに最も自信を持っている例に対応します。これにより、特に最初のイテレーションでは、これらの例が合理化の例よりも弱い勾配信号を提供することになります。毎回ファインチューニングイテレーションを実行するたびに初期の事前学習済みモデルから再トレーニングするため、この効果の程度を直接測定するのも難しいです。最後に、「ヒント」を追加する方法は質問と答えから直接的に導かれるものではなく、一部の文脈ではそれを提供することが自明ではない可能性があることを指摘しなければなりません。さまざまなヒント技術の影響とその一般性の探求は今後の研究の方向性です。

温度

トレーニングデータセットを拡張しようとする場合、合理化の直感的な代替案は、より多くのサンプリングとより高い温度でのサンプリングです。しかし、実際にはこれは逆効果であることがわかりました。一般に、間違った推論にもかかわらず正解を得る可能性が大幅に高まり、悪いまたは無関係な推論でトレーニングすると一般化が妨げられます。これは特に、算術のようなより構造化されたタスクで明確です。ここでは、より高い温度のサンプリングアプローチでモデルが生成することを学習するスクラッチパッドは無意味に発散し、モデルを停滞させます。全体として、合理化の代替として高い温度（例：0.5または0.7）を使用すると、推論のみのモデルよりも一貫して悪いモデルになることがわかりました。さらに、大規模言語モデルによるテキスト生成は逐次的であるため（つまり、先行するトークンを生成せずにトークンを生成することはできない）、テキストの生成はボトルネックとなり、これは計算的に合理化よりもはるかに非効率的です。例えば、10個のサンプル出力を生成することは、1個のサンプル出力を生成するのとほぼ10倍遅くなります。ただし、複数のサンプルを活用する潜在的に有用な方法の1つは、[32]で提案された方法を使用することです。高温のスクラッチパッドの多数決結果を、低温のスクラッチパッドと比較する真実の基準として使用します。これにより、答えのないデータセットにSTARを適用できる可能性があります。

少数ショットプロンプト

注目すべき現象は、サンプリング中に少数ショットプロンプトを含めることが、後の根拠が初期の少数ショットの根拠セットからますます乖離していく「ドリフト」を劇的に減少させるように見えることです。これの1つの利点は、モデルが初期の根拠の質と難しさによってあまり制約を受けなくなる可能性があり、理論的にはより一般化できるようになることです。1つの潜在的な負の結果は、根拠のスタイルが元のプロンプトスタイルにあまり密接に一致しなくなる可能性があることです。もう1つの利点は計算リソースの観点からのものです - より短いプロンプト長によりサンプリング時のシーケンス長を短くすることができます。技術的には、少数ショットプロンプトを「無効にする」トレーニングのポイントは、我々がチューニングできる別のハイパーパラメータですが、これは今後の研究に委ねます。さらに、初期の外部ループイテレーション後にプロンプトを省略することで、モデルは長期間トレーニングするにつれて徐々に合理化の性能が低下する傾向があります。その結果、このアプローチで長期間トレーニングする場合、トレーニング中にいくつかのヒントを含める必要がある可能性があります。

最終的に、トレーニングの後のイテレーションで少数ショットプロンプトを含めるかどうかの選択は、ユースケースに依存するようです：特定のプロンプトスタイルへの一貫した遵守が目標である場合（これは説明可能性に役立つ可能性があります）、サンプリングに少数ショットプロンプトを含めます；トレーニングループをより速くすることが目標である場合は、それらを削除することができます。さらに、他のデータセットやより大きなモデルで性能に影響がある可能性があるため、これを一般的にハイパーパラメータとして扱うことをお勧めします。

6. 結論

我々は、問題を解決するための根拠を生成するモデルの能力を反復的に改善する自己教師あり推論器（STaR）を提示しました。我々は、モデルに少数ショットでプロンプトを与えて、根拠を生成することで段階的に多くの問題を解決させ、そして間違った問題に対しては正解の根拠を合理化するようプロンプトします。最初に正解を得た解決策と合理化された正解の解決策の両方でファインチューニングを行い、このプロセスを繰り返します。この技術が、シンボリック推論と自然言語推論の両方において、モデルの一般化性能を大幅に向上させることを発見しました。

STaRには、いくつかの重要な制限があります。STaRの最初のイテレーションが成功するためには、少数ショットの性能がチャンスを上回る必要があります。これは、初期モデルがある程度の推論能力を持つほど十分に大きくなければならないことを意味します。例えば、GPT-2は算術領域でさえも少数ショットの推論から自己学習することができないことがわかりました。さらなる制限は、チャンス性能のレベルが高い設定（例：二項決定）では、多くの貧弱な根拠が生成され、STaRアプローチを混乱させることです。これらの設定で悪い推論をフィルタリングする方法は未解決の問題です。

それにもかかわらず、我々は推論のない例を使用して推論を自己学習するアプローチが非常に一般的なアプローチであり、STaRが多くの領域でより洗練された技術の基礎となり得ると信じています。

この記事が気に入ったらサポートをしてみませんか？