見出し画像

論文メモ STaR: Self-Taught Reasoner - 推論で推論をブートストラップする

STaR: Bootstrapping Reasoning With Reasoning
Eric Zelikman, Yuhuai Wu, Jesse Mu, Noah D. Goodman

[v1] Mon, 28 Mar 2022 03:12:15 UTC (149 KB)
[v2] Fri, 20 May 2022 13:52:54 UTC (233 KB)

要旨(要約)


大規模言語モデル(LLM)の「思考の連鎖(chain-of-thought)」による逐次的な理由づけは、数学や常識的な質問応答のような複雑な推論タスクでの性能を向上させることが知られています。しかし、LLMに理由づけ生成を誘導するには、膨大な理由づけデータセットの構築が必要か、精度を犠牲にして少数ショット推論を行う必要があります。本論文では、少数の理由づけ例と大量の理由づけのないデータセットを利用して、より複雑な推論能力を段階的にブートストラップする手法「Self-Taught Reasoner(STaR)」を提案します。STaRはシンプルなループに基づいており、多くの質問に理由づけを生成し、その生成した答えが間違っていた場合には正しい答えを与えて再度理由づけを生成し、最終的に正しい答えに至った理由づけで微調整を行い、これを繰り返すことでLLMが自身の生成した推論から学ぶことを可能にします。


論文のポイント

はじめに

人間の意思決定はしばしば「思考の連鎖」によるものです。最近の研究では、明示的な中間推論がLLMの性能を向上させることが示されています。しかし、理由づけ生成を誘導するための主要な方法には欠点があります。

関連研究

理由づけ生成の一つのアプローチは、理由づけの微調整データセットの構築です。これは人手で行われるか、手動でテンプレートを作成する必要があります。もう一つのアプローチは、言語モデルのプロンプトに少数の理由づけ例を含める「インコンテキスト学習」です。

STaR: 汎用的な自己学習推論者

我々は、STaRという手法を提案し、モデルが自身の推論能力を段階的にブートストラップできるようにします。具体的には、少数の理由づけ例をプロンプトに使用して理由づけを生成し、生成された答えが正しい場合のみを使用して微調整を行います。

実験

STaRを算術、常識的推論、学年相応の数学問題で評価しました。その結果、STaRはこれらのタスクでモデルの性能を大幅に向上させました。

結論

STaRは、言語モデルが自身の推論能力を段階的に向上させるための汎用的なブートストラッピング手法です。実験により、その有効性が示されました。


この記事が気に入ったらサポートをしてみませんか?