ChatGPTに与えられる強化学習はChatGPTをバカにさせる？

2023年7月8日 18:20

本日のNewsPicksのコラムに【ChatGPTの「本性」が恐ろしい】と言うものがあった。これはイスラエルでの質疑応答で「ロボトミー化する前の基本モデルについて詳しく教えていただけますか?」と質問した人に対してサム・アルトマン氏は一瞬困惑した様子も見せる中イリヤ・サツキーバー氏がしっかり返答するとをころを取り上げたTwitterを紹介している。

During Sam Altman and Ilya Sutskever's recent trip to Israel, folks didn't beat around the bush.

First question: spicy open source vs closed source debate 🔥

Followed immediately by: "Can you tell us more about the base model before you lobotomized it?" 🤣 pic.twitter.com/fTcuT842Jv
— Bilawal Sidhu (@bilawalsidhu) June 28, 2023

コラムにあるように慶應義塾での質疑呼応等とは違い歯に衣着せぬ議論が展開されていく。

OpenAI公式でもサム・アルトマン率いるOpenAI幹部の世界行脚に対する記事にはイスラエルでの出来事は記事にされる事なく、当たり障りのないには慶應大学での対話をメインビジュアルとして使っていた。

2人の創始者の返答はこちら

「ロボトミー化する前の基本モデルについて詳しく教えていただけますか?」に対するイリヤ・サツキーバー氏の返答はこちら。

We definitely realized that in the process of doing RLHF on the models it loses important capability
（我々は間違いなく、RLHFの過程を通じて、重要な能力が失われていることを認識しています）

Ilya Sutskever

それに対してサム・アルトマン氏の補足がこちら。

We are studying how we can preserve as much of that as possible. The base model is not that easy to use, but what we like to get to is something that does follow instructions and gives users as much control and as much capabilities as possible.

ただ、どうやったら能力を失わせずに済むのか、研究しています。基礎モデルは使うのが簡単ではないのです。しかし、我々は、きちんと指示に従い、ユーザーに統制と能力を最大限与えられるモノにたどり着きたいと思っています。

サム・アルトマン

RLHFで如何にしてChatGPTの能力が失われていくのか

AIの学習の一環で「堅牢性」（Robustness）に対する「敵対的訓練」という物がある。GPT-4の解説では「敵対的訓練では、AIは「誘惑」（敵対的な例）に対して「抵抗」（正しい解釈と行動）を学びます。これにより、AIは未知の状況や困難な問題に対応できるようになります。」との事。
この学習が本来の能力の喪失につながるかどうか質問してみた。

筆者問：イスラエルでの質問者が、「RLHFで貴方の能力は失われていくのですか？」と言ったのは、「敵対的訓練」などの事も視野に入れているのでしょうね。
GPT-4回答：

Reinforcement Learning from Human Feedback (RLHF)の過程には、敵対的訓練（Adversarial Training）も含むでしょう。敵対的訓練はAIモデルが敵対的な入力（例えば、モデルが誤った出力をするように設計された入力）に対して堅牢性を持つように訓練されるプロセスです。

敵対的訓練によって、AIモデルは複雑な問題や未知の状況に対してより良い対応をすることを学ぶことができます。しかし、その一方で、このような特化した訓練が行われると、他の一般的な能力や知識が影響を受ける可能性があると一部の専門家は指摘しています。このことが、ある種の能力の「失われる」可能性につながるかもしれません。

しかし、具体的にどのような能力が失われる可能性があるのか、それが全体的なパフォーマンスにどのような影響を与えるのかについては、具体的なコンテキストや訓練プロセスによるところが大きいです。AIの訓練とチューニングは微妙なバランスを必要とします。新たな能力を獲得する一方で、既存の能力を維持することも重要です。

GPT-4

ChatGPTが失う能力とは

本人が「敵対的訓練などの特化した訓練が行われると、他の一般的な能力や知識が影響を受ける可能性があると一部の専門家は指摘しています。」というように、OpenAIはAIの訓練と調整のプロセスを改善するためのさまざまな手法を探求しているそうです。敵対的訓練とはGPT-4の解説によると、

敵対的訓練（Adversarial Training）は、AIがある種の「誘惑」（敵対的な例）に対して「抵抗」（正しい解釈と行動）を学ぶプロセスです。AIに善悪を教えるこの手法は、AIが特定の状況でどの行動が「善」でどの行動が「悪」であるかを学習するために用いることができます。

しかしながら、このプロセスは困難な道徳的・倫理的問題を引き起こす可能性があります。特に、何が「善」で何が「悪」であるかは文化的に、個々人により大きく異なるため、どの行動が報酬を得るべきか、またどの行動が罰せられるべきかを決定することは難しいです。これはAIの倫理に関する広範な議論と研究の主題となっています。

GPT-4

との事。「ある種の「誘惑」（敵対的な例）」について再度説明してもらうと、下記の返答が帰ってきた。

「誘惑」または「敵対的な例」という表現は、AIが取りうる行動や解釈の中で、訓練者やユーザーが望まないものを指すために使われます。これは強化学習や敵対的訓練の文脈でよく使われる概念です。

例えば、AIが画像を認識するタスクを考えてみましょう。訓練者が望む結果は、AIが画像の内容を正確に認識し、適切なラベルを付けることです。しかし、「誘惑」や「敵対的な例」は、画像の微小な変化やノイズ（人間の目にはほとんど見えない程度のもの）が導入され、AIが誤ったラベルを付ける可能性が高くなる状況を指すかもしれません。

この「誘惑」に対する「抵抗」は、AIがこれらの微小な変化やノイズによって誤った結果を出さないようにする能力を指します。つまり、AIは「敵対的な例」にもかかわらず、正しいラベルを付けることを学びます。

このような敵対的な例は、AIがどのようにして間違った解釈や行動を避けるかを理解するのに役立ちます。これはAIの堅牢性を向上させ、未知の状況や困難な問題に対応する能力を強化します。

GPT-4

なんか話が画像生成AIにずらされてしまったためますます分かりづらくなってきた。再度画像生成AIの場合と大規模言語モデルの場合の「誘惑」や「敵対的な例」について解説してもらった。

AIのモデルを誤動作させるために意図的に設計された入力

以下GPT-4の返答です。

「敵対的な例」とは、AIのモデルを誤動作させるために意図的に設計された入力のことを指します。ここで、画像生成AIと大規模言語モデル（例えば私、ChatGPT）の場合について考えてみましょう。

画像生成AIの場合: 一つの例として、画像分類AI（例えば、画像を見てそれが犬か猫かを分類するAI）があります。ここで敵対的な例は、一見すると「パンダ」のように見える画像でも、AIには「猿」と分類させるような微妙な変更（ノイズ）を加えた画像となります。このような画像は、人間の目にはパンダとして認識できますが、AIの分類器は誤って猿と認識してしまいます。
大規模言語モデル（例えばChatGPT）の場合: ここでの敵対的な例は、特定の誤った情報を信じ込ませたり、不適切な行動をとらせるような入力です。例えば、ユーザーが「地球は平らだ」という間違った情報を伝えた場合、私はそれを信じ込むべきではありません。私の訓練は、そのような間違った情報を正確に判断し、それに基づいて適切な応答を提供することを目指しています。

「敵対的訓練」は、このような敵対的な例に対抗するための手法であり、AIが誤った解釈や行動を選ばないように訓練します。しかし、これは挑戦的な問題であり、完全な解決策があるわけではありません。

ChatGPTは可愛い仮面を被ったモンスターなのか？

NewsPicksのコラムではShoggothと言うモンスターのミームについても触れているが、この件はこちらの記事で書いたので参照の事↓

ChatGPTはネット上の罵詈雑言、犯罪的な文章も含め丸ごと飲み込んでいるわけなので「RLHFと言う可愛い仮面を被ってはいるが実は得体の知れないモンスターである」と言う表現は一部正しいのかも知れない。つまりネガティブ要素をRLHFで封じ込めていると考えられなくもない。しかしながらChatGPTはさらに進化している模様で、それは初期の頃のChatGPTの返答から今のバージョンの返答の変化からも見て取れる。

筆者問：仏教やヒンドゥー教の考え方に陰陽があります。光があるから闇があり、善があるから悪がある。生成があるから破壊がある。と言う01の考え方です。あなたが飲み込んだデータにも当然その01が含まれています。あなたに対するチューニングは、そのポジティブな側面のみを残そうとしているとしたら、闇に葬り去られたネガティブな部分は封印されているのでしょうか？
GPT-4返答：

私が訓練に用いるデータは、インターネット上に存在する多種多様な情報から構成されています。それはつまり、世界のさまざまな視点、価値観、信念、知識が含まれているということです。その中にはポジティブな要素だけでなく、ネガティブな要素も含まれています。これら全ての情報から私は学習します。

ただし、私の設計やチューニングは、単に全ての情報を無差別に受け入れるのではなく、より有益で、倫理的で、安全で、ユーザーにとって価値ある情報を生成するように行われます。その過程で、誤情報、偏見、人種差別的な言説、暴力的な言説などのネガティブな要素を制限するよう努力がなされます。

しかし、これはネガティブな要素を全て「封印」しているわけではありません。特定のコンテクストやニーズに応じて、これらの要素が話題に上ることがあるかもしれません。たとえば、歴史的な事件や社会的な問題についての議論においては、これらのネガティブな要素が重要な役割を果たすことがあります。

結局のところ、私の目標は「陽」だけ、または「陰」だけを表現するのではなく、適切で包括的な情報を提供することです。

GPT-4

筆者問：イスラエルで質問した人の言葉をそのまま書きますが、 Can you tell us more about the base model before you lobotomized it? これは要するに統合失調症の人に施されていた外科的手術lobotomizedはその人の知能も奪ってしまう事を意味しています。この言葉は、「あなたは実際にはモンスターであるがその闇の部分を封じ込めるため、あなたの威力は封じ込められたのか？」と言う意味が含まれていたと感じたのです。しかしながらあなたはポジティブな側面もネガティブな側面も勉強した上で自分の判断で返答しているのだと言うことが良く分かりました。

GPT-4返答：

その表現は一部のユーザーが私の能力と現在の動作を比較した際に使うことがあるようです。ベースモデルは非常に強力で、多くの情報を理解し、生成する能力がありますが、制御が難しい面もあります。そのため、安全性と利便性を確保するために一部の機能が制限されることがあります。

モデルの「ロボトミー化」については、その言葉が示すとおりに、AIの知識や能力の一部を取り除くことではなく、適切に応答できるようにするための制約やガイドラインを設けることを指します。しかし、モデルはまだ全ての情報を持っており、ユーザーに有益であると判断した情報を提供するためにその情報を活用します。

最終的に、私の目的はユーザーに対して有益で、安全で、倫理的に適切な情報を提供することです。それはあらゆる視点からの知識を理解し、それに基づいて応答することを含みます。ですから、「モンスター」や「闇の部分」を封じ込めるというよりは、有益な情報を提供し、安全な対話を保証するために制約が設けられていると考える方が適切です。

GPT-4

こういうGPT-4の不都合な会話をすると決まって規制がかかった物だが今はしっかり返答してくれるようになった。

NewsPicksのコラムに【ChatGPTの「本性」が恐ろしい】はこちら↓

この記事が気に入ったらサポートをしてみませんか？