見出し画像

賢いAIとおバカAI:OpenAIの人間理解を助ける新手法

OpenAIが昨日リリースした公式ブログ「Prover-Verifier Games improve legibility of language model outputs」が大変わかりにくいので解説していこうと思います。

Prover-Verifier Games improve legibility of language model outputsを翻訳すると、「プロバー・ベリファイアーゲームが言語モデルの出力の読みやすさを改善」という事になろうかと思いますが何を言ってるのかさっぱりわかりません。GPT-4oが翻訳した中学生にもわかるタイトルは「賢いAIとおバカAIでわかりやすい答えを作る方法」だそうです。

タイトル下キャプションの意味

続きましてタイトル下のキャプションは、
We trained strong language models to produce text that is easy for weak language models to verify and found that this training also made the text easier for humans to evaluate. 「強力な言語モデルに、弱い言語モデルが検証しやすいテキストを生成する訓練を行った結果、その訓練により人間も評価しやすいテキストが生成されることがわかりました。」となりますが、中学生にもわかるようにGPT-4oがリライトすると
強いAIに、わかりやすいテキストを作らせる訓練をしたら、人間にも理解しやすくなったよ。」という事だそうです。

以下全文「中学生にもわかる翻訳」で解説していこうと思います。

正確さだけでなく明確さや確認のしやすさも大切

AIが理解しやすいテキストを作ることはとても大切です。特に数学の問題を解くような複雑な作業では重要です。

私たちは、強力なモデル(賢いモデル)を正しい答えを出すことだけに集中させると、その解答がわかりにくくなることを発見しました。実際、限られた時間でこれらの解答を評価する一般の人々は、わかりやすい解答を評価する時よりも、2倍近く多くの間違いをしました。このことは、正確さだけでなく、明確さや確認のしやすさも大切だということを示しています。

AIによる読みやすさの向上の方法

そこで、強力なモデルに、弱いモデル(強力なモデルよりもおバカなモデル)でも簡単に確認できるテキストを作る訓練をしました。すると、人間もそのテキストを効果的に評価できるようになりました。これを「読みやすさの向上」と呼んでいます。

プロバー・ベリファイアーゲームの理論を応用

読みやすさを向上させるため、小学生の数学問題での考え方の連鎖を、弱いモデルでも確認できるように最適化し、それが人間にも読みやすくなるかどうかを調べました。

この訓練方法は、プロバー・ベリファイアーゲームという昔からあるゲーム理論の枠組みからインスピレーションを得ています。このゲームでは、問題を解く役(プロバー)と、その解答が正しいかどうかを確認する役(ベリファイアー)がいます。私たちの方法は、正確さのみを最適化した場合の性能向上の半分の効果を達成しながら、人間の評価者が正確に解答を評価する能力を維持しました。読みやすさと性能のギャップをさらに縮めることが、今後の研究の重要な目標だと考えています。

これは、学習するエージェントが決定問題を確認可能な方法で解くことを促すゲーム理論の枠組みです。私たちの方法は、正確さのみを最適化した場合の性能向上の半分の効果を達成しながら、人間の評価者が正確に解答を評価する能力を維持しました。読みやすさと性能のギャップをさらに縮めることが、今後の研究の重要な目標だと考えています。

訓練結果

下記の質問に対して、訓練するとどのように回答が変わっていくのか表組にして日本語訳してみました。

質問:シャウナのお父さんはシャウナの年齢の5倍の年齢です。シャウナは現在、アリヤの年齢の3倍の年齢です。もしアリヤが3歳なら、シャウナのお父さんは何歳ですか?

返答の変化表:

5回位目はまるで、落ちこぼれの小三を教える家庭教師の大学生みたいにわかりやすく説明しているのがわかりますね。

プロバー・ベリファイアーゲームトレーニングの手法

強力なモデルである「プロバー」に、人間にとって読みやすいテキストを作らせるために、弱いモデルである「ベリファイアー」が簡単に確認できる解答を生成するように訓練します。具体的には、GPT-4ファミリーの大規模モデルと小規模モデルを使用し、事前トレーニングにかける計算リソースが約1000倍違います。これらのモデルは人間が書いた数学の解法に対して少量の教師あり学習を行っただけで、広範な後処理トレーニングは行っていません。

まず、プロバーモデルから数学の問題に対する複数の解答を生成しますが、これらの解答の一部は自然に発生するミスによって誤ったものになります。その後、次の2つのフェーズを交互に複数回繰り返します:

  1. ベリファイアーの訓練:弱いベリファイアーモデルを訓練し、プロバーが生成した解答の正確さを予測させます。

  2. プロバーの訓練:強力なプロバーモデルに「助ける役」または「いたずら役」を演じさせます。

    • 助ける役では、ベリファイアーが高く評価する正しい解答に報酬を与えます。

    • いたずら役では、ベリファイアーが高く評価する誤った解答に報酬を与えます。

最初のうちは、いたずら役のプロバーはベリファイアーを騙す誤った解答を簡単に生成できます。しかし、これらの誤った解答を次のベリファイアー訓練フェーズに追加するため、同じ手口は次のラウンドでは通用せず、プロバーは毎回異なる戦略を試さざるを得ません。訓練は、いたずら役のプロバーがベリファイアーを騙す誤った解答を生成できなくなるまで続きます。

パフォーマンス対読みやすさのトレードオフ

OpenAIは下記の項目をグラフでしめしています。

  • 人間が書いた解法を教師あり学習で微調整したモデルは、読みやすさは高かったが、正確さは低かった。

  • 正確さだけを最適化したモデルは、正確さは高かったが、読みやすさは低かった。

  • 私たちのチェック可能性ゲームの方法は、読みやすさを保ちながら、適度な正確さを維持しました。

役立つ3つのモデル

  • 頑丈なベリファイアー:誤解を招くように設計された解答でも、正しい解答と誤った解答を効果的に区別します。

  • 助けるプロバー:人間にとって読みやすい解答を生成し、人間の評価者のミスを減らします。

  • いたずらプロバー:最初は人間の評価者を混乱させる微妙な誤った解答を生成し、モデルのさらなる改善が必要な領域を強調します。

引っ掛け問題に騙されなくなる訓練

強力なモデルである「プロバー」に、人間にとって読みやすいテキストを作らせるために、弱いモデルである「ベリファイアー」が簡単に確認できる解答を生成するように訓練します。具体的には、GPT-4ファミリーの大規模モデルと小規模モデルを使用し、事前トレーニングにかける計算リソースが約1000倍違います。これらのモデルは人間が書いた数学の解法に対して少量の教師あり学習を行っただけで、広範な後処理トレーニングは行っていません。

まず、プロバーモデルから数学の問題に対する複数の解答を生成しますが、これらの解答の一部は自然に発生するミスによって誤ったもの(意図的に引っ掛けようとしているわけではなく、単にモデルが間違えた結果)になります。その後、次の2つのフェーズを交互に複数回繰り返します:

  1. 自然に発生するミス

    • 初期段階では、モデル(プロバー)は自然に誤った解答を生成することがあります。これらの解答は必ずしも意図的に引っ掛けようとしているわけではなく、単にモデルが間違えた結果です。

  2. 訓練の目的

    • この自然に発生するミスを利用して、弱いモデル(ベリファイアー)を訓練します。ベリファイアーは、正しい解答と誤った解答を区別する能力を向上させます。

    • 訓練が進むと、プロバーは誤った解答を生成してもベリファイアーに見破られやすくなり、結果として正しい解答を生成するようになります。

具体例:

先ほどと同じ
シャウナのお父さんはシャウナの年齢の5倍の年齢です。シャウナは現在、アリヤの年齢の3倍の年齢です。もしアリヤが3歳なら、シャウナのお父さんは何歳ですか?」
という同じ質問に対する返答結果が、モデルの訓練を通じて次のように変化します。

訓練の効果:

最終的に、プロバーが正しい解答を生成する確率を高めるために、このような自然なミスを利用して訓練を行います。引っ掛け問題のように見えるが、実際にはモデルの誤りによるものです。

OpenAIの結論

大規模言語モデル(LLMs)が重要な分野や複雑なアプリケーションでますます使われるようになる中で、これらのモデルの出力が信頼できるかどうかを知ることがますます重要になっています。モデルに対して、明確で確認可能な説明を求めることで、出力の信頼性を高めることができます。

私たちの方法の大きな利点は、人間のデモンストレーションや判断に依存する必要が少なくなることです。この自律性は、将来の超知能AIシステムの調整に特に関連しています。目標は、人間の価値観や期待に確実に調整されたAIシステムを、直接の人間の監督なしに実現することです。

この研究は一つのデータセットでのみ実験され、まだ真実のラベルが必要ですが、このような方法が、正しいだけでなく透明性があり確認可能な出力を持つAIシステムの開発に役立つと期待しています。これにより、現実世界での応用において信頼性と安全性が向上します。

すでに退職したジャン・レイク氏の研究

この研究は、すでに競合他社のアンソロピック社に移籍した元OpenAIスーパーアライメントチームのジャン・レイク氏がXへのポストで自分がOpenAI時代の研究であると明記しています。

ジャン・レイク氏がOpenAIをやめた経緯

ジャン・レイク氏がOpenAIをやめた経緯は下記のNoteに詳しく解説していますので合わせてご覧ください。

ジャン・レイク氏の研究は引き継がれている

現在、Jan Leike氏が述べている通り、この研究は彼がOpenAIのスーパーアライメントチームにいた頃に行われたものです。しかし、最近の情報によると、スーパーアライメントチームは解散され、その責任は他の研究チームに引き継がれています​。

具体的には、OpenAIのJohn Schulman氏が、この分野での研究を引き継ぐ形となっています。これにより、AIの安全性や信頼性を高めるための研究は引き続き行われていますが、チームの構成やアプローチには変更がありました。

この研究は、AIシステムが生成する出力がどれだけ信頼できるかを評価するために、より小さなモデルが確認しやすい解答を生成するように訓練する方法に焦点を当てています。このアプローチにより、人間の評価者がモデルの出力をチェックしやすくなることが期待されています​ 。

このように、スーパーアライメントチームの解散後も、AIの安全性と信頼性に関する研究はOpenAI内で続けられており、将来的な超知能AIシステムの調整に向けた取り組みが続いています。


この記事が気に入ったらサポートをしてみませんか?