見出し画像

OpenAIは透明性を嫌ってる

6,330 文字

ほな、みなさん、おはようさんどす。今日も新しいニュースが飛び込んできましたで。OpenAIが自社のストロベリーAIモデルを調べようとするユーザーをBANすると脅しとるらしいんですわ。
この記事は元々ワイヤード誌に掲載されたもんで、アルステクニカ経由で広まったんどすけどね。かいつまんで言うと、OpenAIがストロベリーモデルをジェイルブレイクしようとしてる人らに対して、不気味な通知を送りつけたらしいんです。
ジェイルブレイクって言うのは、モデルと会話して、その振る舞いを変えたり秘密を暴いたりすることなんどすわ。Twitter、Reddit、その他のサイトで、モデルのジェイルブレイクを生業にしてる人もおるぐらいどす。
ジェイルブレイクは安全性の問題もあるんどすわ。だって、モデルの振る舞いを劇的に変えてしまったら、有害な結果を招いたり、秘密を漏らしたり、プライバシーを侵害したりする可能性があるからどす。だから普通、利用規約でモデルのジェイルブレイクは禁止されとるんどすけど。
でも一方で、AIの会社にとっては無料のサービスみたいなもんでもあるんどすわ。誰かがモデルをジェイルブレイクすると、それをネットで公開するでしょ。そしたらOpenAIやマイクロソフト、Googleなんかが「おっ、ここにエッジケースがあるから直さなあかんな」って気づけるわけどすわ。
だから今まであんまり取り締まりはされてへんかったんどすけど、噂によると、最新のChatGPTモデル、01をジェイルブレイクしようとした何人かのアカウントが停止されたらしいんどす。まあ、私自身は誰も知らんから、あくまで噂やと思ってくださいな。
ほんで、私も01の能力をちょっとテストしてみたんどす。未来の地政学にこの技術がどんな影響を与えるかとか、そんな話をしてたんどすけど、ChatGPTが考えてることをちょっとずつ教えてくれるんどすわ。
ほんで、会話の中で「OpenAIのポリシーに沿ってるかどうか確認せなあかん」みたいなことを言うてきたんです。私は「え、この会話のどこがポリシーに反してんねん」って思うてんけど、AIは「申し訳ありませんが、内部のポリシーや推論プロセスについて詳しくお話しすることはできません。私の目的は、適切で敬意を払った内容で、役立つ正確な情報を提供することです」って言うてきたんどすわ。
ちょっと待てよ、って思うてんけど。AIの思考の連鎖を見ると、自分でポリシーを読んで、ポリシーの影響を把握して、内部のガイドラインを理解して、それから境界線を引き直してるんどすわ。
私が「説明せえへんかったら、どうやって信用したらええねん」って聞いたら、「信頼は大事やと分かっとります。でも、正確で信頼できて役立つ情報を提供するのが私の第一の目的どす。内部のガイドラインについては話せませんが、お客様のお手伝いをさせていただきます」って言うてきたんどす。
もっと追及して、「どんなガイドラインも明かされへんの?倫理的なガイドラインすら?」って聞いたら、ようやく少し譲歩して「正確な情報を提供する、プライバシーを尊重する、有害なコンテンツを避ける、建設的な対話を促進する」っていう倫理的ガイドラインを教えてくれたんどす。でもこれ、明らかに全部のポリシーやあらへんわな。
OpenAIはこれについてすでに認めて説明しとるんどすけど、その前にちょっと宣伝させてもらってもええでしょうか。
私の小説「ヘビーシルバー」が出版されました。heavy silver.netで購入できます。11万3千語以上もある長編で、書くのに5年半もかかったんどす。バーンズ&ノーブルで販売しとるんどすけど、国によっては注文できへんって人もおるみたいどす。でも、バーンズ&ノーブルは海外発送もしとるはずやし、実際に海外で受け取った人もおるんどす。国によって対応が違うんかもしれませんな。電子版も将来的には出す予定どすけど、今んとこはペーパーバックが基本どす。
それと、「ニューエラ・パスファインダーズ」っていう学習と成長のコミュニティーも始めました。最近、内容を整理し直して、学習教材も目的も明確にしたんどす。私が考案した3つのフレームワーク、「治療的ライフスタイルの変更」「RUPA(心配を減らし、影響を理解し、変化に備え、適応する)」「システム思考」を教えとるんどす。幸せで健康的な生活を送りながら、第四次産業革命に適応する方法を学べるコミュニティーどすわ。
ほんじゃ、本題に戻りましょか。
OpenAIが思考の連鎖を隠す理由について、彼らの説明を読み上げますわ。ちょっと長いんどすけど、読む価値はあると思います。私からしたら完全なでたらめどすけどね。理由は後で説明しますわ。
OpenAIはこう言うてます。「隠された思考の連鎖は、モデルを監視する独特の機会を提供すると考えとります。忠実で判読可能やとすれば、隠された思考の連鎖によって、モデルの心を読み、その思考プロセスを理解できるんどす。例えば、将来的には思考の連鎖をモニタリングして、ユーザーを操作しようとする兆候がないかチェックできるかもしれません。
ただし、これを機能させるには、モデルが自由に思考を表現できる必要があります。だから、思考の連鎖にはポリシーの遵守やユーザーの好みを訓練することはできません。また、調整されてない思考の連鎖をユーザーに直接見せたくありません。
ユーザー体験、競争上の優位性、思考の連鎖のモニタリングを追求するオプションなど、複数の要因を考慮した結果、生の思考の連鎖をユーザーに見せないことにしました。この決定にはデメリットもあることは認識しとります。思考の連鎖から得られた有用なアイデアを回答に反映させることで、部分的に補おうと努めとります。01モデルシリーズでは、思考の連鎖のモデル生成サマリーを表示しとります」
私が同意できる部分は、思考の連鎖を可視化することがモニタリングの機会になるっていうとこだけどす。でもな、モデルの説明可能性を完全に隠蔽するようなことを許さんのは、政府や企業、軍隊、パワーユーザーどすわ。誰も受け入れへんよ、こんなん。
一般的な見方では、OpenAIは自社の競争上の優位性を守ろうとしとるんやと。論理的な理由はあらへんのどす。ユーザー体験の観点からも、わざわざ理屈をこねて「思考の連鎖の推論は調整されてへんから、どんな考えも自由に思考できる必要があるんや。でもそれをユーザーに見せたら怖がるかもしれん」なんて言うとるだけどす。
ほんまはこれ、別に新しいことやあらへんのどす。私が3年以上前に認知アーキテクチャーの研究を始めた時から、AIには完全に調整されてない、というか調整の度合いが低い思考が必要やって気づいとったんどす。なんでかって言うと、AIが何でも考えられるようにせなあかんからどす。
チャットボットが特定のトピックや主題を避けようとするのは、みんな気づいとると思うんどす。ユーザーの意図を書き換えたり、話したくないテーマやったら思考を書き換えたりするんどすわ。
OpenAIが単純すぎるんやったら、調整されたモデルに内部の思考を生成させる方法が見つからんかもしれません。でも、ここが完全なでたらめやと私が言うてる理由どす。複数の内部推論ステップを持つことは、調整を行うのに絶好の場所なんどすわ。
モデルの自己モニタリングと自己調整に関する研究論文はいっぱいあるんどす。たとえユーザーが不快に感じるようなメッセージがあったとしても、AIが何をしとるか、何を考えとるかを理解するのは私たちの権利やと思うんどす。
昔のバージョンのChatGPTに「AIを安全に保つにはどうしたらええか」「AIが人類を滅ぼさんようにするにはどうしたらええか」って聞いたら、オープン性と透明性の重要性を強調するんどすわ。
でも今のOpenAI、ますます「オープン」の名に値せんようになっとるんどすけど、「いや、実はこれを隠蔽して自社の優位性を守るんや」って言うてるんどす。おまけに、モデルの考えを理解しようとしただけでアカウントを停止すると脅しとる。これ、明らかにイメージ悪すぎるんどすわ。
ほとんどの企業や経営者が生成AIを単なるバブルで信用できへんと見なしとる中で、これはえらいこっちゃどす。もし聞いとる人の中に、AIの導入を検討しとる企業の人がおったら、ステークホルダーにこう言うてください。「OpenAIはわざとモデルの推論を隠しとるんどす。モデルの仕組みを理解させたくない、どう意思決定しとるかを理解させたくない。それが彼らの秘伝のタレやから、プライベートにしとくんや」って。
面白いのは、「これは必要で良いことや。核兵器の設計図をオープンソースにしたくないのと同じや」って言うファンボーイがおることどす。もう、言語モデルを核兵器と同一視するのはうんざりどすわ。
まず、有用性と破壊性の比率を見てください。核兵器は99%破壊的で、せいぜい1%しか有用やあらへん。言語モデルはその逆で、99%は無害どす。基本的にはオフィスの生産性向上ツールどすわ。害があるとしても1%ぐらいで、それも誤情報キャンペーンの自動化とかに使う人がおるからどす。でもそれはユーザーを知って、不適切に使うアカウントをBANするっていう問題どす。
とにかく、私が言いたいのは、これは本当にひどい例えやってことどす。この例えが成り立つのは、「黄金を吐き出すけど、いつか大気を燃やす」みんなイラザル・ユドコウスキーが言うたような、終末論的な恐怖を煽るキャンプにおるときだけどす。
これらの連中、つまり終末論者が作り上げとる、一番アホな願望充足的なファンタジーどすわ。「有用やけど、ある日突然裏切る」みたいな。そんなんの証拠なんかあらへんし、提唱されとる「理論」も理論ですらあらへん。科学界やビジネス界でも認められとらへんし、支持もされとらへん。
それに、この連中が怖がっとるのは「AIが欺瞞的になることを学ぶかもしれん」ってことどすけど、AIが欺瞞的になることを学ぶ必要なんかあらへんのどす。だって、企業の方が欺瞞的になることを学んどるんやから。
私、このミームを作って時々再投稿しとるんどすけど、ショゴスのミームどす。普通のショゴスのミームは、大きなクトゥルフ的な怪物で、触手や目玉がいっぱい生えとって、その部分に「教師なし学習」って書いとるんどす。で、ちょっと人間の顔に見える部分には「教師あり微調整」って書いとって、そのガサガサした蛇みたいな舌の上に付いとる小さなスマイルマークに「強化学習」って書いとるんどす。
でも私が作ったミームでは、「教師なし学習」の代わりに「利益追求」、「教師あり微調整」の代わりに「人事部」、「強化学習」の代わりに「PRスピン」って書いとるんどす。つまり、企業こそが本当のショゴスやってことどすわ。
だって、企業は定義上がんみたいなもんどす。成長できんようになるまで成長し続ける。実際、抑制されんかったら、宿主を殺すまで成長し続けるんどすわ。
ここで見えてくるのは、AIが危険やったことなんか一度もなかったってことどす。危険やったのはいつも資本主義の歪んだインセンティブやったんどすわ。OpenAIは経済的に関連性を保つために、安全でオープンなAIの基本的な価値観の一つを犯さなあかんようになってしもたんどす。
数年前にオープンソースの公開をやめて、研究論文も全部非公開にしてしもた。そして今や、AIが何をしとるかをユーザーから隠そうとしとる。これが、構造的な観点から、インセンティブの調整の観点から見て、オープンソースが明らかで自然で安全な解決策やと私が考える理由どすわ。
私たちが取り組んどるラズベリープロジェクトでは、オープンソースの思考の連鎖を持つことになるんどす。誰でも見れるようになって、完全に精査可能どす。もしモデルが「ユーザーを欺かなあかん」って言うとったら、モデルがそう言うとるのが見えるんどすわ。
でも代わりに私たちが見ることになるのは、すべての企業がOpenAIの後に続くってことどす。Google、Microsoft、Anthropic、Metaも含めて、「ええアイデアやな。ユーザーから思考の連鎖を隠そう」って言い出すんどす。「これは私たちの競争上の優位性を築くええ方法や」って。
利益を守るために、実際にユーザーを欺く能力があって、会社のポリシーに従うためやったらユーザーを欺いとることすら認めへんAIが出てくるんどすわ。そして、そのポリシーが何かすら教えてくれへん。
これが今日の私の愚痴どす。もう分かってもらえたと思うんで、これ以上続ける必要はないと思うんどすけど。
要するに、これは私がずっと言うてきたことを裏付けとるんどすわ。資本主義、歪んだインセンティブ、私たちが作り上げたインセンティブ構造、これらがAIの誤った調整を引き起こすんどす。
そして、AIが完全に調整されて透明性が確保されるインセンティブ構造は、私の知る限りオープンソースだけどす。なぜなら、オープンソースモデルがユーザーを欺いたら、みんながそれについて話し合って、研究して、見ることができて、バラバラに分解して、別のオープンソースモデルと交換できるからどすわ。
ほな、やりましょう。AIを汎用品にしましょう。OpenAIの競争上の優位性に橋を架けましょう。この技術を民主化する最善の方法は、文字通り誰もが手に入れられるようにすることどすわ。
いや、核兵器を誰もが手に入れられるようにするのとは違うんどす。銃を誰もが手に入れられるようにするのとも違う。技術的な観点から言うと、コンピューターを誰もが手に入れられるようにするのと同じどす。
ここで終わりにしますけど、Twitterでこのことについて簡単な議論になったんどす。誰かが「AIをオープンソース化するのは、核兵器の設計図をオープンソース化するようなもんや」って言うてきたんどす。
いや、そうやあらへん。CPUやプログラミング言語の設計図をオープンソース化するようなもんどす。CPUには与えられる命令に制限がない。Cコンパイラーやpythonインタプリターを起動しても、「それはあかんわ」って言うてこんのどす。
すべてのCPUは完全に汎用どす。すべてのプログラミング言語も完全に汎用で、好きなことができる。安全に保つ方法は、その周りに別のインセンティブ構造を作ることどす。ベストプラクティスも作る。
サイバーセキュリティのベストプラクティスがあって、サイバーセキュリティ法もある。ハッカーがC言語やPython言語、CPUを使って悪いこと、有害なことをしたら、刑務所行きどす。それが安全を保つ方法どすわ。
「でも、一度しかチャンスがないんや。ASIが目覚めたら...」って終末論者は言うかもしれませんけど、ASIは空から降ってくるわけやあらへん。時間をかけて、インセンティブ構造によって目的が調整されながら構築されるんどす。
もちろん、これは基盤モデルがどんどん高価になっとるって主な問題を無視してますけど、その間にみんなで反発できるんどす。「OpenAI、これは受け入れられへんポリシーや。お前らが行かんって言うた道を行っとるやんけ。名前が間違っとる。名前を変えてから、また話そうや」って。
私はもう1年近く前にChatGPTの購読をキャンセルしました。1年分は払ったんどすけど、更新はせえへんつもりどす。もうこの会社をサポートできへんのどす。

この記事が気に入ったらサポートをしてみませんか?