論文メモ STaR: Self-Taught Reasoner - 推論で推論をブートストラップする

2024年7月28日 08:40

STaR: Bootstrapping Reasoning With Reasoning
Eric Zelikman, Yuhuai Wu, Jesse Mu, Noah D. Goodman

[v1] Mon, 28 Mar 2022 03:12:15 UTC (149 KB)
[v2] Fri, 20 May 2022 13:52:54 UTC (233 KB)

要旨（要約）

大規模言語モデル(LLM)の「思考の連鎖（chain-of-thought）」による逐次的な理由づけは、数学や常識的な質問応答のような複雑な推論タスクでの性能を向上させることが知られています。しかし、LLMに理由づけ生成を誘導するには、膨大な理由づけデータセットの構築が必要か、精度を犠牲にして少数ショット推論を行う必要があります。本論文では、少数の理由づけ例と大量の理由づけのないデータセットを利用して、より複雑な推論能力を段階的にブートストラップする手法「Self-Taught Reasoner（STaR）」を提案します。STaRはシンプルなループに基づいており、多くの質問に理由づけを生成し、その生成した答えが間違っていた場合には正しい答えを与えて再度理由づけを生成し、最終的に正しい答えに至った理由づけで微調整を行い、これを繰り返すことでLLMが自身の生成した推論から学ぶことを可能にします。

論文のポイント

はじめに

人間の意思決定はしばしば「思考の連鎖」によるものです。最近の研究では、明示的な中間推論がLLMの性能を向上させることが示されています。しかし、理由づけ生成を誘導するための主要な方法には欠点があります。