衝撃的な新しいOpenAIの詳細がさらに明らかに！（プロジェクトストロベリー/Q*スター）

2024年8月12日 15:25

ストロベリーアップデートに関して、さらに詳細が明らかになりました。これは非常に興味深いことです。というのも、TwitterやReddit、その他さまざまなソーシャルメディアプラットフォームで、AI開発に関するさまざまな噂が飛び交っているからです。この動画では、この分野で起きていることの多くを明らかにしようと思います。というのも、多くの憶測があり、少なくとも最近は物事がかなり混乱していることを知っているからです。この情報の多くは、IR rule the world M Moというアカウントから来ており、もちろん確認できる実際の事実に基づいた証拠に基づいています。できる限り憶測を避け、実際に真実であることを完全に無視することなく、できる限り事実に基づいた内容にしようと思います。
このアカウントが最近ツイートしたことの1つは、GPT-4oのアップデートがあったということです。これが更なるポイントにつながる理由について話そうと思います。なぜなら、GPT-4に関して最近いくつかの新事実が明らかになったからです。Diego AIは、GPT-4が突然アップデートされたとツイートし、IR rule the world Moは、Twitterで将来GPT-4oに何らかのアップデートがあるというツイートを発信していました。私はこれが彼らが言及していたアップデートだとは思いません。彼らが言及していたのは、もちろんOpenAIが出したかもしれないアップデートだと思います。なぜなら最近起きたことは、ベンチマークをチェックすれば分かるように、Googleが人間の要求に答え、もちろんそれを上手くフォーマットする点で、モデルの推論方法においてリードを取っているからです。そして、もちろんClaude 3.5 Sonnetがかなり長い間トップに立っていました。ですので、OpenAIがこのようなアップデートを出すのは珍しいことではありません。
しかし、最近GPT-4oで私がテストしたこと、そして一部の人々がGPT-4oをテストして述べていることの1つは、わずかに良くなっているということです。これは自分でテストできます。これを素早く確認するために、私はGPT-4oで簡単なテストを行い、「laloaという単語にはいくつのLがありますか」と尋ねました。実際に、この質問に間違って答えました。これはGPT-4oが愚かだということを意味するわけではありません。これは基本的に次の2つのうちの1つを意味します。aは、一部の人々が示唆したように、彼らが持っているGPT-4oモデルが最近更新されていないということか、bは、私の追加で彼らがただ単に私にロールアウトしなかったということです。なぜなら、OpenAIは時々異なる国や異なるタイムゾーンに異なるインスタンスをロールアウトすることがあるからです。アメリカかもしれませんし、ブラジルかもしれません。正直なところ、今どこでロールアウトされているのか分かりません。
しかし、個人的にはこれをテストしましたが、人々が常に疑問に思っている問題、つまりCanonモデルが実際に文字を数えられるかどうか、そしてもちろんこれが彼らがそれをプロジェクトストロベリーと呼んだ理由なのかどうかという問題は、人々が考えているほど大きな問題だとは思いません。これはShawn Ralstonが言うように、トークン化によるものだからです。はい、もちろんいくつかの改善はありますが、LLMがどのようにテキストを処理するかを実際に理解すれば、それらは異なるトークンに分解されます。個々の文字を私たちのように見るのではなく、トークンとして見ていて、これらのトークンを使って物事がどのように関係しているかを見て、それを使って一種の世界モデルを構築しているのです。
ですので、モデルに単語の文字数を数えるように頼むと、それに苦戦します。ご覧のように、単語のトークン化の方法は、文章内のコンテキストによって変わる可能性があると述べています。例えば、「strawberry」という単語は、モデルのトークン化ルールによって、「straw」「berry」や「st」「wberry」のように複数のトークンに分割される可能性があります。これは完全に正しいです。単語は基本的にトークンにされるので、だからこそ一部の人々はこれがAGIではないと言うのです。
しかし、これは実際には重要ではありません。なぜなら、私が常々言っているように、プロンプトエンジニアリングで解決できるなら、いくつかの単語を変えて正しい出力を得られるなら、どんな違いがあるのでしょうか。そこで私は、「verifyという単語の各文字を書き出し、それがLかどうかを確認し、それを数えてください」と言いました。すると、実際に正しい単語を得ることができました。
このストロベリー、文字を数えられるか、単語を数えられるかという全ての問題は、本当に重要な推論の問題だとは思いません。なぜなら、プロンプトエンジニアリングがこれを解決し、プロンプトエンジニアリングは、私たちが物事に対する本当の答えを求める最も高度な推論ケースで使用されないわけではないからです。そして、特定のアプリケーションにLLMを使用しようとしている場合でも、プロンプトエンジニアリングは使用するものです。文字を数えられるかどうかという全ての問題は、あまり取り上げる必要のないヌルポイントだと思います。
しかし、GPT-4oに話を戻しましょう。基本的に、このストロベリーアカウントに関して、多くのことをツイートしていたこのアカウントが1つツイートしたのはGitHubリンクでした。私は当時Twitterにいて、最近の情報を考えると、オープンソースモデルのようなものをリリースするのではないかと思っていました。しかし、彼らが実際に行ったのは、この日付をGPT-4AR（2024年8月13日）としたことです。これは火曜日の日付です。私がこれを火曜日だと思う理由は、AIの分野に注目していれば分かるように、OpenAIのアップデートや大手テックAIのリリースの大半が火曜日か木曜日だからです。この日付がモデルのリリース日である可能性を考えると、これは非常に興味深いことです。
これがさらに興味深いと思う理由は、AIリーカーとして長い歴史を持ち、非常に信頼できる人物からの最近のツイートがあるからです。それはJimmy Applesです。彼を単にリーカーと呼びたくありません。なぜなら、彼は実際に情報をリークするわけではなく、次の大きなモデルリリースを示唆するからです。全てをリークするわけではありませんが、彼のヒントは過去数年にわたってかなり正確でした。彼は「Sund（Sundar Pichai、Googleの CEO）をカウントしなかったのですね。そうするのは大きな間違いです。彼は来週リマッチがあります」とツイートしました。
過去のモデルリリースで見てきたことの1つは、Googleが絶対に信じられないようなデモを行うたびに、それが常にOpenAIのリリースに影を落とされてきたということです。例えば、プロジェクトAstraのGoogleの素晴らしいデモを覚えていますか？GPT-4oの音声モードと非常によく似たAIエージェントでしたが、OpenAIのものよりも少し遅延があっただけで、2日前のOpenAIの製品リリースに完全に影を落とされてしまいました。
そこで多くの人々が、そして私自身も推測しているのは、火曜日にOpenAIから何らかのリリースがあり、木曜日にGoogleがリリースするものを覆い隠す可能性があるということです。これはかなりありそうなことだと思います。なぜなら、a) Jimmy Applesは空気のリリースについて話す良い実績を持っており、それらが非常に正確であること、b) 様々な異なるGoogleモデルが実験的な形式でリリースされており、私自身も毎日使用して楽しんでいるという事実があるからです。これは驚くべきことではなく、OpenAIの過去の実績を考えると、何かをリリースしても驚くことではありません。
問題は、それがGPT-4 Largeになるかどうかです。なぜなら、GPT-4 Largeという名前は、GPT-4o自体が大規模なモデルではないことを示唆しており、これは現在アクセスできるモデルのイテレーションが私たちが考えているよりも小さいということを意味するからです。ここで、さらに多くの情報に入ります。基本的に、ここで見ることができるのは、このユーザー、つまりストロベリーアカウントと呼ぶものが、GPT-4o Miniが80億パラメータモデルであり、GPT-4oが70億パラメータモデルであり、4050億パラメータモデルを持っていて、彼らの高度に量子化されたグーが競争に勝っており、さらに多くが調理中であることに人々が気づいたときに、人々は混乱するだろうと話しています。
基本的に、GPT-4o Miniが80億パラメータモデルであることは、モデルがそれほど良くないが、様々なユースケースには十分に機能し、モデルが非常に安いという事実を考えると、もっともらしいと思います。私たちが何度も見てきたことの1つは、OpenAIが標準的な研究レベルや、私たちが持っている標準的なオープンモデルのレベルをかなり上回っているということです。例えば、Llama 80億パラメータがLlama 3.1であることを考えると、OpenAIが標準的なクローズドモデルやオープンモデルよりも30〜40％ahead ahead ahead ahead aheadであると仮定すれば、GPT-4o Miniが80億パラメータモデルである可能性はあります。私たちが現在使用しているバージョンはテキストベースだけだということを考えると、それは間違いなく可能性があります。
彼らが特定のブレークスルーを達成したかもしれないことを考えると、そして5^3論文を見ると、これらの論文は5^1から5^3までの一連の論文で、モデルが特定の技術でどのように改善できるか、そしてサイズにもかかわらず小さなモデルがいかに驚くほど効果的であるかを見ています。これは不可能ではないと思います。GPT-4oが700億パラメータモデルであることは本当に衝撃的です。なぜなら、確かにLlama 3 700億パラメータは非常に優れたモデルで、本当に良く機能しますが、それはOpenAIがいくつかの驚くべきブレークスルーを達成したことを意味し、物事はさらにクレイジーになろうとしているということを意味するからです。GPT-4oが700億パラメータモデルであれば、それは問題外ではありません。それは全く問題外というわけではありませんが、OpenAIがそれを達成するのは驚くべき偉業でしょう。
彼は、彼らの高度に量子化されたグーが競争に勝っているので、大規模なモデルに座っていると言っています。これは、ある意味で理解できます。GPT-4oを覚えていれば、人々はこれを忘れ続けていますが、私はこれを再び持ち出します。なぜなら、GPT-4oには、実際には完全なGPT-4oモデルにアクセスできないからです。人々が実際に覚えていないこと、そして私も常に忘れていることの1つは、これは慎重な展開についてOpenAIが話していた理由でもあります。GPT-4oのOは実際にはO mniを表しています。人々が忘れ続けていることの1つは、マルチモーダルモデルで多くのことができるということです。
例えば、ロゴを取って画像に貼り付けたり、完全なサンプルをクリックすると、音声を再生したり、これらすべてのことができます。例えば、キャラクターデザインがあり、キャラクターをデザインし、そのキャラクターに多くの異なることを一貫して行わせることができます。これらすべてを行えるモデルを持つことを考えると、私たちはモデルにアクセスできないことを覚えておく必要があります。だから、これがOpenAIが今週木曜日にリリースしようとしているものかもしれません。ストロベリーアカウントが、我々は単に700億パラメータモデルを持っていると主張している状況を考えると、実際のところ、我々はまだ音声や3D、このような画像生成にアクセスできていません。
これらの他のものを見てみると、2つの画像を組み合わせて瞬時にポスターを作成できるポスターデザインなど、これらはまだアクセスできないツールです。だから、これは人々が忘れ続けているGPT-4シリーズの一部だと思います。これは、能力の探求を見てください。私はこの動画へのリンクを残します。なぜなら、私はこれらすべてのことを見る30分の動画を作ったからです。しかし、GPT-4oは実際に我々が考えているよりも大きなモデルなのです。
このツイートは、GPT-4oが完全に、つまりネイティブにマルチモーダルなモデルであることを考えると、実際にもっと信憑性があります。もう一度、400億パラメータモデルを見てみると、現在の技術水準では400億パラメータのモデルは達成可能であることがわかります。なぜなら、Llama 3.1 405億パラメータがあり、最近のものを見ることができます。私はここでScalesのベンチマークを見ています。アリーナのベンチマークを見ていない理由は、アリーナのベンチマークが汚染されているとは言いませんが、特定の戦いがどのように進行したかにより、特定のモデルが本来よりも高くランク付けされており、ユーザー評価でモデルがどのように機能するかの正確な表現を与えないからです。現在、これは完全に独立しているので、これを使用しています。
しかし、ここで見ることができるのは、Llama 3.1が他のモデルに比べて能力が少し向上しているという点で、最先端のレベルにあるということです。だから、今我々は、400億パラメータのモデルが完全に最先端であることが全く疑問の余地がないという段階に近づいています。Llamaの最近のリリースを考えると。
実際のストロベリーの話に入ると、これは以前に私が言っていたことの一部につながります。彼は言います。「explainedはしばらくの間これに近づいていたので、掘り下げたい場合はそちらをチェックすると良いでしょう。しかしこれがIIAが見たものです。これが数学のベンチマークを破ったものです。これは問題に計算能力を投入するよりも、人間のフィードバックによる強化学習に近いものです。sus column Rは、ストロベリーを使用した非常に小さなOpenAIモデルで、より大きなモデルでのストロベリーは木曜日に登場します。」だから私は以前のモデルのイテレーションと、我々が見ているようなものについて話していました。
「人間のように推論するように微調整されたLMと考えてください。だからこそ、SamがLevel 2のコメントにいいねをして、それについて素晴らしいと感じ、Iliaはそうではありませんでした。我々は今ここにいます。」私がこれを非常に興味深いと思う理由は、我々が見ているものを実際に見ると、sus column R、現在アリーナエリアにあるモデル、基本的にはチャットBエリアで、実際にモデルをテストし、モデルのフロンティア、次のフロンティアを見ることができ、それらがどのように機能するかを見ることができます。そのモデルが実際に80億パラメータモデル、70億パラメータモデルで、それが小さく、どんな推論エンジンを使っているにせよ、最先端の性能を発揮しているとすれば、それは真のブレークスルーです。なぜなら、他の質問が正解できなかった問題について推論できるからです。
そして、私が言ったように、これらのことを実際にステップを踏んで推論したり、空間認識や言語ベンチマーク、実際の推論などをテストしているのであれば、単にトリック問題に正解したかどうかではなく、それは追加のスケールを持つことで、AGIがこの種のモデルがかなりAGIレベルのシステムであることを示しているところであり、おそらく彼らはまだそれをスケールアップしていないだけかもしれません。
だから、sus column Rがストロベリーを使用した非常に小さなOpenAIモデルであるという主張は悪くないと思います。なぜなら、もしモデルがすべての質問に正確に答えられるほど優れていたなら、私はそれはかなり驚異的だと言うでしょう。なぜなら、前に言ったように、私が自分でモデルをテストしたとき、他の最先端のものと同等程度でした。それほど先を行っているわけではありませんでした。いくつかの問題では天才的な面を見せましたが、それほど先を行っているわけではありませんでした。しかし、もしそれが他のモデルと同じくらい優れた小さなモデルだとしたら、それは完全に驚異的です。
そして、前に言ったように、モデルが私に反応した方法は、まるで問題について推論しようとしているかのようでした。すべてについて推論しようとしているようでした。ただ内部的に、私はモデルが問題を特定の方法で分解しようとしているだけだと思いました。他のモデルのようには見えませんでした。それは純粋に私が様々な質問でモデルをテストしたときの経験でした。
これが、Samがレベル2のコメントに「いいね」をして素晴らしいと感じ、Iliaはそうでなかった理由です。もしこれがすべて真実なら、我々は現在、一部の最先端のモデルと同じくらい優れた推論能力を持つモデルを持っていて、それが本当に小さなものだということになります。おそらくこれが、ASIが手の届くところにある理由かもしれません。なぜなら、彼らがする必要があるのは、もちろんこのモデルをスケールアップすることだけかもしれないからです。
そう言えば、最近Ilya Sutskeverが去って、スーパーインテリジェンスは手の届くところにあると言ったことを覚えておいてください。私は、スーパーインテリジェンスが手の届くところにあるという声明は本当に大きな声明だと思います。彼はAGIを構築するために去ったのではなく、スーパーインテリジェンスを構築するために去ったのです。つまり、おそらく彼が考えていることを考えると、彼はおそらくこう考えているのでしょう。「もしOpenAIがここでAGIに到達できるなら、彼らの方法や私が取り組んできた方法のいくつかを使えば、間違いなくスーパーインテリジェンスに到達できる」と。
そして、Ilya Sutskeverはハイプを生み出す人ではなく、ハイプを作ることには関心がありませんが、もし彼がスーパーインテリジェンスは手の届くところにあると言っているなら、それは彼らが取り組んできたものが、スーパーインテリジェンスがそれほど遠くないことを彼に示していることを意味します。これは驚くべき声明です。OpenAIの成功の要となる人物の一人からのこの声明は、明らかにAGIからそれほど遠くないことを意味します。スーパーインテリジェンスが手の届くところにあるのであれば。
もちろん、以前に言及したレベル2のツイートもありました。レベル2は基本的に人間レベルの推論です。一部の人々はこれをAGIスケールでのAGIと言うでしょう。なぜなら、AGIが実際に何であるかを考えると、ほとんどの人々は人間レベルのものだと言うでしょう。実際にレベルを見ると、レベル1から5まであり、レベル5は実際の組織の仕事をこなせる人です。レベル5がAGIだとは思いません。実際に考えてみると、レベル5はASIの境界線、ほぼASIに近いでしょう。なぜなら、もし一つのシステムが会社全体の仕事をこなせるなら、それは一人の人間ができることではないからです。つまり、できるかもしれませんが、本当に考えてみると、それが効果的にできるなら、どちらかと言えばASIに近いものです。そしてもちろん、ノンストップで運用できます。
もちろん、「巨大なモデル、音声、ビデオ、安全性に言及しました。MetaとClaudeが小さな80億、720億、そして大規模モデルを持っているという単純な方法でモデルのサイズを参照しました。これは単純な枠組みであり、4のはるかに大きなバージョンが来ることを除いて何も意味しません。そしてそれを試すと、3から4に移行したときに見たような顕著な飛躍があり、それは来週ストロベリーと一緒に到着します。」と言うツイートもあります。私が前に言ったように、これが起こるかどうかはわかりませんが、Googleがパブリックの認識でOpenAIを追い越すことができれば、彼らはおそらく何かをリリースすると思います。
もちろん、触れたかったことの一つは安全性です。基本的に、この GPT-next（我々全員が知っているもの）について、彼らは準備ができていると述べています。これはタイムラインに基づいて理解できます。もちろん、バックグラウンドでさまざまなことが起こっていますが、競争が安全性を上回るかどうかは言い難いと言っています。
レッドチームによるテストは終了し、ポストトレーニングも完了しています。モデルには非常に大きな眠れる能力があり、モデルを安全にすることがますます不可能になっています。このモデルのロックを解除すれば、前例のない規模で世界を混乱させることが簡単にできるでしょう。音声、ビデオ、Sora、エージェント、そして目を見張るような能力を混ぜ合わせると、事態は加熱します。彼らは安全性を正しく扱い、それをロールアウトするでしょう。
私は、このモデルがリリースされたとしても、世界が完全な規模で混乱するとは思いません。GPT-5、おそらくGPT-6かもしれませんが、一つ覚えておく必要があるのは、もちろんOpenAIの準備態勢フレームワークです。準備態勢フレームワークのスコアカードは、最近のGPT-4oモデルカードからのものです。これは基本的に、モデルをどのように評価するか、レッドチーミング、すべてがどのように機能したかを示しています。これが彼らのスコアカードです。
これが、私が常に言っているように、GPT-7やGPT-8のようなシステムを手に入れることができないかもしれない理由です。そして人々は常に「どういう意味ですか？そのようなシステムを手に入れられないとはどういうことですか？」と言います。このように考えてください。十分に賢いモデル、非常に説得力があり、自律的で、多くのことができるモデルがあるとします。我々は、これらのモデルの各々が完全にジェイルブレイクされると想定しなければなりません。リリースされたモデルで、完全にジェイルブレイクされなかったものを見たことがありません。
問題は、モデルをリリースしてそれが実際に役立つ場合、モデルが無用であることと、ジェイルブレイクできないこととの間には微妙な線があるということです。なぜなら、しばしば時間とともに起こることは、モデルが無用であればあるほど、ジェイルブレイクされる可能性が低くなるということです。OpenAIは彼らのモデルを製品として持っており、できる限り役立つものにしたいと考えています。私は以前、回避するのが非常に難しいさまざまなジェイルブレイクを見てきました。しかし、新しいジェイルブレイクは常に存在するでしょう。
ポイントは、OpenAIが自ら述べているように、中程度以下の事後緩和スコアを持つモデルのみがデプロイでき、高以下の事後緩和スコアを持つモデルのみがさらに開発できるということです。彼らは基本的に、モデルが中程度に留まる場合にのみモデルをリリースすると述べています。モデルが高い自律性、高い説得力、高い生物学的脅威、または高いサイバーセキュリティに達した場合、彼らはそのモデルを全くリリースしないでしょう。これは、将来のモデルを手に入れたとしても、おそらくある程度ダウングレードされたモデルを手に入れることになるということを意味します。なぜなら、彼らの準備態勢フレームワークに基づいて、これらのモデルをリリースしないと以前に述べているからです。これは単なる安全性の問題です。
また、モデルがより賢く、より能力が高くなるにつれて、それらを抑制することがますます難しくなるとも思います。なぜなら、彼らの推論能力がそれだけ高くなり、広範囲にわたる敵対的な使用の可能性が開かれるからです。これは、そのTwitterアカウントが何を言っているかに関係なく、OpenAIが直面している問題です。
全体的に見て、これを見ると、いくつかのことが分かります。まず、Googleは来週何かをリリースする可能性が非常に高いです。彼らがチャットボットアリーナでフロンティアモデルをテストしていたのは、かなり長い間、約3週間ほどだったと思います。これはOpenAIがGPT-4oをリリースする前に行ったのとまったく同じことです。
ストロベリーモデルはおそらく、一種の推論エンジンのような非常に小さなモデルだと思います。なぜなら、これはReutersが報じたように、OpenAIがQ*が何かであることを確認し、Sam AltmanがこのアカウントにDMを送り、これについて何度もツイートしているからです。
また、OpenAIはもちろん、Googleが何をリリースするかによって何かをリリースすると信じています。そして、もちろん、これらの次世代フロンティアモデルを取り巻く安全性の問題を見ると、OpenAIがこれらのモデルをリリースするのは非常に難しいと思います。考えられる能力を考えると。
私は以前、彼らがこれらのモデルをリリースする可能性のある1つの方法は、特定の化学物質を扱うのにライセンスが必要なのと同じように、これらのモデルを操作するためにライセンスが必要になるかもしれないと言いました。そうすれば、モデルに何か問題が起きた場合、モデルが何に使用されたか、どのようなチャットが送信されたかを独立して追跡することができます。基本的には、モデルを追跡する方法です。そして、危険なことに使用されない特定の産業でまだ使用できるようにしますが、ただし説明責任のレベルを設けて、「はい、我々は非常に能力の高いモデルをリリースしましたが、これらのライセンスを持つ人にのみ許可し、すべてを追跡します」と言えるようにします。もちろん制限付きですが。
しかし、もちろん一般の人々に完全にリリースするわけではありません。なぜなら、個人は基本的に何でも好きなことをできるからです。結果を恐れずに。だから、私はこれが将来起こる可能性が高いと思いますが、見守る必要があります。
そう言ったところで、Googleが何かをリリースするようです。来週はおそらくAIにとって信じられないほどすごい週になるでしょう。そう言ったところで、もし動画で何か見落としたことがあれば、「いいね」を押すのを忘れずに、そして購読をお忘れなく。次回の動画でお会いしましょう。

この記事が気に入ったらサポートをしてみませんか？