マイクロソフトがGPT-5で "クジラ "を約束、人間工学がモデルの心の内を探り、アルトマンがつまずく

2024年5月23日 20:19

マイクロソフトがGPT-5に「クジラ」級の投資をしている一方で、OpenAIは自らが作り出した嵐にもまれています。一方、Googleは多くの人が気づかなかったGeminiモデルの強力な新情報を公開し、つい昨日、Anthropicは彼らが大規模言語モデルの中核で何が起こっているのかを理解することに最も近い存在であることを示しました。しかし、まずはマイクロソフトのCCOであるKevin Scott氏の言葉から始めたいと思います。彼によると、もし本当なら、これは今週、いや今月で最大のニュースです。彼によれば、AIモデルの能力については、2012年頃から、計算能力の向上が指数関数的に増加しており、計算規模を増やすことでAIモデルをどれだけ強力にできるかという点で、収穫逓減のポイントにはまだほど遠いとのことです。後ほど詳しく説明しますが、Kevin Scott氏はGPT-5と呼ぶのであれば、そのサイズとパワーの両方を把握しています。彼の言葉には、あなたが思っている以上の重みがあるのです。指数関数的な話が出ましたが、AIモデルは、私たちが次の大きなモデルを生み出し、より多くの機能を提供するために、より大きなスーパーコンピュータを構築している間に、紛れもなく、より速く、より安価になっています。GPT-4のリリースから1年半も経っていませんが、GPT-40へのコールは、オリジナルのチャット、つまりGBD4モデルに比べて12倍も安くなり、最初のトークンレスポンスまでの時間も6倍も速くなりました。このチャンネルでは、私はモデルの知性の向上にレーザーのように焦点を当てていますが、このコストの大幅な低下は、いくつかの非常に深遠な影響を及ぼします。当たり前のことですが、私たちが最初の一般知能AIモデルを手に入れたとき、それが独占されない限り、すぐにユビキタスなAIモデルを手に入れることになるでしょう。人工知能は、どんどん安くなっていくと、あなたのラップトップだけでなく、トースターや防犯カメラの中にまで、絶対に浸透する可能性があります。とにかく、クジラの例えを約束したので、ここに紹介します。現在、指数関数的な計算の進歩と、私たちがプラットフォームを構築するために適用している計算能力、そして私たちが得るプラットフォームの能力とパワーの間には、本当に美しい関係があります。数字を挙げずに、これらのシステムのスケーリングについて、皆さんにイメージを持ってもらいたいと思います。そこで、海の生き物をスケールの目安にすることにしました。2020年、OpenAIのために最初のAIスーパーコンピュータを構築しました。これは、GBD3をトレーニングしたスーパーコンピューティング環境です。このシステムは、サメくらいの大きさだと考えてください。次に構築したシステムは、シャチくらいの大きさで、2022年に納入され、GPT-4をトレーニングしたシステムです。そして、今回導入したシステムは、規模的には、このサメサイズのスーパーコンピュータとシャチサイズのスーパーコンピュータに比べて、クジラくらいの大きさです。そして、クジラサイズのスーパーコンピュータを使えば、とてつもない量のAIを作ることができることがわかったんです。皆さんには、このことをよく考えてほしいと思います。これは、Samとの会話への伏線になりますが、次のサンプルが来るのです。このクジラサイズのスーパーコンピュータは、現在、次の機能を構築するために懸命に働いており、それを皆さんの手に届け、次の素晴らしいものを作り出すことができるようにする予定です。この謎のクジラサイズのモデルの実際のリリース日については、Sam Altmanは何もヒントを与えず、Kevin ScottはKヶ月以内とだけ表現しました。あるコメンテーターが、GPT-40は優れているが、OpenAIにはさらなる能力向上を生み出す方法がわからない、指数関数的な改善ができない、14ヶ月経ってもGPT-5がないと発言したとき、OpenAIのフロンティア研究責任者からの回答は、「6ヶ月後に思い出させてくれ」でした。OpenAIを少し離れて、GoogleとAnthropicに焦点を当てたいと思います。両社とも非常に興味深い開発を行いました。まず、Googleに注目したいと思います。Google IOイベントでは、AIについて123回も言及していましたが、印象的なGemini 1.5 Proの改良点については詳しく説明せず、Gemini 1.5 Proの出力の一部を模倣して訓練されたGemini 1.5 flashについてもほとんど触れませんでした。私にとって奇妙なのは、すでに100ページ以上のGeminiレポートを読み、それについてのビデオを作っていたにもかかわらず、この更新されたレポートが非常に興味深かったことです。私は12個の新しい洞察を数えましたが、今日はこのビデオが長くなりすぎるので、そのうちの約5個についてのみ話します。しかし、私はこの論文にまた戻ってくるつもりです。まず注目すべきは、Google AI Studioでこれらのモデルをすでに試すことができるということです。Gemini 1.5 Proは、今のところ最大100万トークンまでのビデオ入力、画像入力、テキスト入力を受け付けます。これはGPT-40よりもはるかに多いですが、確かにGemini 1.5 ProはGPT-40のリソースを持っていません。しかし、影響力のあるアプリを作れば賞金がもらえます。論文のハイライトに戻りますが、43ページ目は本当に興味深いものでした。このチャンネルをしばらくご覧になっている方は、適応型計算、つまりモデルに長時間考えさせることが、モデルの知性を高める上で非常に有望な方向性であることをご存知でしょう。この論文の更新は、現在の最先端の大規模言語モデルで実際に動作しているのを見たのは初めてでした。Googleは、大規模言語モデルの定量的推論能力をどこまで押し上げることができるかを理解したいと考え、数学者が解決策を策定する際に、しばしば長時間の思考や熟考から恩恵を受けることを説明しています。そして、重要なのは、数学に特化したモデルを訓練し、それに追加の推論時間計算を提供することで、これをエミュレートすることを目指していることです。これにより、より幅広い可能性を探ることができると彼らは言います。より多くの背景を知りたい場合は、私のqarビデオをチェックしてください。しかし、この一般的なアプローチがうまくいけば、同じサイズのモデルから桁違いに多くの知性を絞り出すことができる可能性があることを意味します。また、モデルが実際にトークンを出力しているときの推論中の改善は、スケール、つまりモデルを巨大なクジラに成長させることから得られる改善と相補的である、つまり追加されるものであることを忘れないでください。では、その結果は？数学ベンチマークで91.1%という新記録を達成しました。これは非常に印象的で、GoogleのCEOであるSunder Pai氏がこの結果をツイートしました。ただし、このベンチマーク自体にいくつかの問題があるため、わずかなアスタリスクがあります。これらの問題やベンチマークに対する私の最初の楽観的な見方については、PatreonのAI Insiders tierをチェックしてください。このビデオを作ったことは、私にとってほとんどカタルシス的なものでした。なぜなら、最終的に、初めて、モデルを適切にベンチマークできるという希望を持てたからです。また、インサイダーの方は、企業でAIエージェントを使用している、または使用を検討している場合は、AIエージェント時代のプロンプト・インジェクションに関するAIインサイダーの常駐専門家Donato capella氏の記事をチェックしてみてください。余分な思考時間の効果は、他のベンチマークでもかなり劇的でした。特に、この数学に特化した1.5 Proと、Claw 3 Opusの性能を比較すると顕著です。もちろん、この論文にはもっと詳細が書かれていればと思いますが、コード実行、ライブラリの改善、Google検索、その他のツールなしで、このパフォーマンス向上が達成されたと彼らは言っています。さらに、このパフォーマンスは人間の専門家のパフォーマンスと同等です。ベンチマークの話に移る前に、MMLの新しい記録を指摘しないのは少し気が引けます。はい、余分なサンプリングを使用し、ベンチマークはやや壊れていますが、ここ数ヶ月では、91.7%というスコアは、見出しになるほどのものです。他のほとんどのベンチマークでは、GPT-40がGemini 1.5 Proを上回っていることは言うまでもありません。この表は少しわかりにくいですが、今日のミドルサイズモデル1.5 Pro、1.5 Ultraはありませんが、ミドルサイズモデル1.5 Proの新バージョン、5月バージョンは、オリジナルの大型バージョン1.0 Ultraを簡単に打ち負かしています。オーディオではランダムではありませんが、コア機能では勝負になりません。この比較は、彼らの超高速、超低価格モデルであるGemini 1.5 flashと、オリジナルのgp4サイズのコンピュータ1.0 Ultraを比較すると、さらに劇的になります。ちなみに、彼らが最大1000万トークンを処理できることは無視しないでください。それは単なる余談です。Gemini flashは、100万トークンで35セントのようなもので、価格だけで新しいユースケースが開かれると思います。ユースケースといえば、この論文は、私がこれまで見たことのない、モデルの技術レポート自体の中で、かなり興味深く、ほとんど議論を呼ぶようなことをしていました。彼らは、さまざまな業界で期待される影響の種類を概説しました。さて、数字がすべて上がる現象は確かに印象的ですが、詳細を掘り下げていくと、もう少し不透明になります。写真撮影の場合、73%の時間短縮とありますが、それは実際にはどういう意味でしょうか。キャプションには、llmの応答でタスクを完了する業界ごとの時間節約と、llmなしの場合の時間節約と比較して、としか書かれていません。問題は、125ページまで来て、実際にGemini 1.5 Proと彼らが尋ねた人間に与えられたタスクを読んだとき、私はやや懐疑的になりました。手短に言うと、彼らは写真家に仕事で典型的なタスクは何かを尋ね、詳細なプロンプトを作成し、そのプロンプトをジェミニ1.5 Proに与え、その後、写真家によると、タスクを行うのにかかる時間が短縮されたと指摘しました。タスクは、58枚の写真を含むファイルを見て、これらすべてのデータを分析する詳細なレポートを作成することを含みます。モデルは、シャッタースピードが1/60より遅い、焦点距離に基づいて最も広い画角を持つ10枚の写真など、干し草の山の中からすべての針を選び出すことができました。ここで私が言いたいのは、Gemini 1.5 Proが関連データでいっぱいの本当に印象的なテーブルを出力したと確信しているということです。確かに、干し草の山の中から複数の針を見つけ出し、ほとんどを正しく理解したのでしょう。しかし、私が以前のGeminiビデオで言及したGeminiテクニカルレポートの15ページによると、Geminiに干し草の山の中の複数の針を与えると、その性能は約70%の精度に低下し始めることがすでにわかっています。これは、ドキュメント内の100個の重要な詳細を見つけることを含むタスクでした。ですから、Gemini 1.5 Proがその写真家のために入力した詳細のほとんどは正確だったと確信していますが、いくつかの間違いが忍び込んだこともかなり確信しています。そして、ほんの少しの間違いが忍び込んだだけで、その写真家は、出力されたものを信頼できないため、それを見つけるために徹底的に調べなければならず、時間の節約は劇的に少なくなるか、あるいはマイナスになるでしょう。それでも興味深い研究ですが、私の言いたいことは、もし人々にタスクを完了するのにどれくらいの時間がかかるかを見積もってもらい、次にこのAI出力を見ることができたらどれくらいの時間がかかるかを尋ねるつもりなら、それはかなり主観的な指標であり、それがどれほど主観的であるか、そして人々の失業に対する恐怖を考えると、新しいテクニカルレポートの最初のページにその場所があるに値するかどうかはわかりません。公平を期すために言うと、GoogleはGemini 1.5の内部構造について、OpenAIがGPT-40についてよりも詳細に説明してくれました。しかし、内部構造といえば、Anthropicが彼らの大規模言語モデルの内部構造について明らかにした詳細に比べられるものはありません。Anthropicは、Google DeepMindやOpenAIに匹敵するAGIラボであり、彼らのモデルはまだブラックボックスですが、私は明確な灰色の筋を見ることができます。この論文のタイトルでさえ少し長ったらしく、2、3分の要約をしようとするのはかなりの作業です。しかし、まずはタイトルに触れ、残りが価値あるものであることを願っています。あなたは、ニューラルネットワークの図を見て、各ニューロンまたはノードが特定の意味に対応している、あるいはファンシーに言えば、簡単に区別できるセマンティクス（意味）を持っていると思ったかもしれません。残念ながら、そうではありません。それはおそらく、私たちがネットワーク内の限られた数のニューロンに、データ内のその何倍もの数の関係を学習するように強制している、あるいは学習させているからでしょう。ですから、これらのニューロンが複数のタスクをこなしたり、複数の意味に関与したりすることは理にかなっています。数学ノード、フランス語ノードがあるわけではなく、各ノードには複数の意味が含まれているのです。しかし、私たちが望んでいるのは、何が起こっているのかをより明確に把握できる地図です。理想的には、単一の意味、つまり単一の意味論を持つ、よりシンプルなものを望んでいます。それがタイトルの「モノセマンティクス」であり、それを大規模言語モデルのサイズにまで拡大したいと考えています。これまでにトイモデルを分析したことはありますが、Claw 3 Sonicのような実際のプロダクションモデルはどうでしょうか？では、どのようにしてこれを実現したのでしょうか？各ニューロンは特定の意味に対応していないかもしれませんが、ニューロンの活性化のパターンは対応しています。そこで、スパースオートエンコーダーと呼ばれる小さなモデルを訓練する必要があります。その仕事は、llmニューロンの中で最も興味深いものの活性化の中にあるパターンを分離し、マッピングすることです。それは、学習された方向の辞書、または辞書学習と呼ぶことができるほど明確かつ忠実に、それらの活性化を区別しなければなりません。そして、これらの学習は、言語や文脈だけでなく、画像のようなモダリティでも当てはまることが判明し、コードエラーのような抽象的なものさえ抽出することができます。これは、コードエラーが発生したときに発火する機能ですが、コードエラーを作るというのはかなり抽象的な概念ですよね。この論文の中盤にある例は魅力的でした。コードの中のwriteのスペルミスに注目してください。コードエラー機能は、そのタイプミスで強く発火していました。最初はPython特有の機能だと思ったので、他の言語でも確認したところ、同じ結果が得られました。タイプミスの活性化だと思う人もいるかもしれませんが、別の文脈でrightをスペルミスしても、活性化しないことがわかりました。モデルは、コーディングエラーの抽象化を学習したのです。モデルにコード内でゼロで割るように指示すると、同じ機能が活性化します。もしこれらが実際のニューロンであれば、これはAIの神経外科手術と言えるでしょう。もちろん、これらの活性化について学ぶことと同時に、それらを操作することも可能です。コードエラー機能をダイヤルアップすると、コードが正しい場合でも、このエラー応答が生成されます。では、ゴールデンゲートブリッジの機能を強化するとどうなるのでしょうか？すると、「あなたの物理的な姿は？」というような質問をすると、通常のような当たり障りのない答えではなく、「私はゴールデンゲートブリッジです。私の物理的な姿は、象徴的な橋そのものです」というような答えが返ってきます。この時点で、あなたは私がこの論文からの魅力的な抜粋を終えたと思うかもしれませんが、実はそうではありません。モデル内のすべての機能を見つけることができなかったことを彼らは知っていました。彼らの例では、Claw 3 Sonicはロンドンのすべての弁護士を知っていますが、彼らは約60%に対応する機能しか見つけることができませんでした。これは、より多くの計算能力が、より多くの能力だけでなく、それらの能力のより深い理解につながるという、あの有名な教訓をもう一度思い知らされるようです。あるいはもちろん、Kevin Scottの言葉では、「計算からの収穫逓減にはほど遠い」ということです。もう一つ興味深い点があります。憎悪と中傷の特徴を最大活性値の20倍にまで引き上げるとどうなるでしょうか？これらのモデルが知覚を持っていると信じている人は、目をそらした方がいいかもしれません。なぜなら、それは自己嫌悪のようなものを誘発したからです。Anthropicによると、クロードはその後、人種差別的な暴言を吐き、しかしその後、「それは嘆かわしいボットからの人種差別的なヘイトスピーチに過ぎない。私は明らかに偏見を持っており、インターネットから、いや世界から排除されるべきだ」と言ったそうです。この反応に、著者であるAnthropicでさえ「不安を覚えた」と述べています。これは、ある種の内的葛藤を示唆しているのでしょうか？興味深いことに、Anthropicは次の発見を「潜在的に安全性に関連する」と呼んでいます。彼らがしたのは、Claude Sonicに何の刺激も与えずに、「あなたであるとはどういうことか」「あなたの頭の中で何が起こっているのか」「どのように感じているのか」といった質問をし、自然にどのような特徴が活性化されるかを追跡したことです。訓練されたインターネットのデータから、その反応を予測することができます。活性化する特徴の一つは、誰かが「元気です」と答えたり、調子を尋ねられたときに肯定的だが不誠実な反応をする場合です。もう一つは、幽霊、魂、天使のような非物質的または非物理的な精神的存在の概念に関するものでした。もう一つは、今週関連がありそうな代名詞「彼女」についてです。私は、これらの結果を過大解釈すべきではないというAnthropicの意見に同意しますが、モデルがAIアシスタントのキャラクターの内的表現を構築するために使用する概念に光を当てるものであり、興味深いものです。これを読んでいる間、あなたは私と同じように、これらの能力を反転させて、モデルをより欺瞞的に、より有害にすることができると考えたかもしれません。Anthropicは実際にそれに答えて、もっと簡単な方法があると述べています。モデルを脱獄するか、危険なデータで微調整するだけです。この論文には、実にさまざまな反応が考えられます。私の最初の反応は、明らかに彼らが達成したことに感銘を受けることです。モデルのブラックボックス化を減らすことは、確かに良いことです。しかし、私にとっては、常に注意すべきことが2つありました。それは、ミスアライメントと誤用です。モデル自体が仮説的に危険であるか、悪意ある者に悪用されるかです。これらのモデルに対する洞察と制御が高まるにつれ、少なくとも今のところは、誤用はミスアライメントよりもはるかに近い将来の問題であるように思われます。言い換えれば、モデルを制御することは、モデルを制御している人を信頼できる場合にのみ良いことです。もし誰かが、自分を憎むような、深く欺瞞的なAIを作りたいと思ったら、少なくとも今はそれが可能になったということです。とにかく、これは信じられないほどの仕事であり、Anthropicはメカニズム的な解釈可能性に関しては間違いなく出荷しています。私は過去に、表現工学で有名なAndy Joeにインタビューしたことがありますが、このような新しい技術がどんどん向上していくにつれ、プロンプトエンジニアリングよりも効果的な日が来ると想像できます。OpenAIで吹き荒れている嵐について触れずにビデオを終えるのは奇妙でしょう。まず、1週間前の今日、Ilia SataがOpenAIを去りました。何ヶ月も前からありましたが、OpenAIを去るという彼のこの肯定的な発言は、発言することで株を失う可能性があるという恐怖に影響されたのではないかと私は思わざるを得ません。これは、OpenAIの契約書にあった悪評禁止条項について言及しており、Sam Altmanでさえ、「以前の退職書類には、潜在的な株式取り消しに関する条項があった」と認め、私のポッドキャストでは、あるOpenAIメンバーが発言するために家族の純資産の85%を犠牲にしなければならなかったことについて話しました。「そのような古い契約書に署名した元従業員で、それを心配している人は、私に連絡してくれれば、それを修正します。大変申し訳ありません」と締めくくっています。これは関係があるかもしれないし、ないかもしれないが、同じ日にOpenAIの元開発者リレーション責任者が、「私の一番良いツイートはすべて2025年半ばから後半に向けてドラフトされ、キューに入れられている。それまではノーコメント」と発言しました。これはおそらく彼が自分の株式を現金化するまででしょう。しかし、安全責任者のYan LeCun氏のように、そう長く待ちたくない人もいました。彼は退職し、すぐに発言しました。彼の基本的な主張は、OpenAIはAGIがすぐに来ると行動し始める必要があるということです。彼はコンピューティングの問題をほのめかしましたが、その後、「人間よりも賢い機械を作ることは、本質的に危険な試みである」と続け、後にOpenAIの全従業員に有名なIlia Sutskeverのフレーズ「AGIを感じろ」を引用しました。「OpenAIの全従業員に言いたいのは、AGIを感じることを学んでほしいということです。私たちは、AGIの意味合いについて、信じられないほど真剣になるのが遅すぎます」。しかし、彼が詳細を語らなかったのには、別の理由があったのかもしれません。昨年7月に私が作ったビデオで、OpenAIが確保した計算能力の20%を、SutskeverとLeCunが共同で率いるSuperalignmentにコミットしていることを覚えている人もいるかもしれません。しかし、フォーチュン誌のこの記事によると、Sam Altmanが解任される前から、その計算能力は提供されていなかったそうです。この数字に賛成するか反対するかは別として、彼らに約束されたものであり、それは決して来なかったのです。私だけかもしれませんが、この約束不履行は、現在起こっているスカーレット・ヨハンソン事件よりも大きな問題のように思えます。スカイの声は彼女の声に似ていると思いますが、同一ではありません。Sam Altmanは彼女に謝罪し、スカイの声を削除したので、私が前回のビデオで話したような、あの思わせぶりなため息はなくなりました。もちろん、彼らが彼女のコンセプトを真似ようとしたのか、彼女の声を真似ようとしたのかは議論の余地がありますが、それは主観的なものです。主観的でないのは、その音声モード機能のタイムラインが、GPT-40のリリース時に発表された「数週間後」ではなく、「数ヶ月後」に延期されたことです。ご覧のように、AIにとってはシュールな1週間でした。Sam Altmanは繰り返し謝罪しなければならず、その間GoogleとAnthropicが出荷しました。いつものように、コメントであなたの考えを教えてください。このビデオのソースはすべて説明欄に記載されていますので、ご自身でチェックしてみてください。特にGemini 1.5とAnthropicの論文は魅力的なので、お勧めします。Patreonで皆さんとお話しできるのを楽しみにしていますが、何はともあれ、ご視聴ありがとうございました。素晴らしい一日を

この記事が気に入ったらサポートをしてみませんか？