GPT Q* ストロベリーが目前に、サム・アルトマンが煽る(モデルは既に密かに稼働中??)
サム・アルトマンは大したトロールか、GPT5ストロベリーがもうすぐ来るかのどちらかです。ここ数日で高まってきた噂やハイプについて詳しく見ていきましょう。
この動画を録画している8月7日午前8時29分(太平洋時間)現在、サム・アルトマンはこんなツイートをしています。「夏の庭が大好きだ」。何というトロールでしょう。彼はイチゴのある庭の写真を投稿しました。ご存じない方のために説明すると、ストロベリーやQ*、あるいは何と呼ぼうと、これが次の大型バージョン、OpenAIの次のフロンティアモデルだと皆が考えているものです。もちろん、このツイートの後、AI界隈のTwitterは大騒ぎになり、みんなコメントし始めました。
しかし、それだけではありません。実は2つの匿名モデルがLMSIS.orgに突如登場したのです。これはOpenAIが以前のモデルでも使った戦略で、匿名でモデルをLMSIS.orgに投入するというものです。私は今朝確認しましたが、これらのモデルを見つけることはできませんでした。しかし、インターネット上で十分な報告があり、信頼できると思われる人々がこれらのモデルの動作を示しています。
ここにOpenAIの有名なリーカー、Jimmy Applesがいます。「LMSISアリーナバトルに新モデル登場」と。ご覧の通り、モデル名は「Anonymous Chatbot」です。他の人には別の名前で表示されているようで、完全に別のモデルである可能性もあります。それについては後ほど触れます。
彼は「あなたはどのモデルですか」と尋ねました。すると「OpenAIのGPT-4アーキテクチャに基づいています。具体的には、チャットベースの対話用に微調整されたGPT-4のバージョンとやり取りしています」という回答がありました。あまり多くは語っていませんが、GPT-4アーキテクチャだと言っています。しかし、それが真実かどうかは分かりません。
Jimmy Applesは続けて言います。「個人的に少し粗く限定的にテストしてみましたが、推論能力の向上は見られませんでした。ただ、数学では向上が見られました。数学の個人的な評価がより優れている人がテストできればいいのですが」。私もテストしたかったのですが、LMSIS.orgのどこにも見つけることができませんでした。
次に、開発者のHater Atlowが、Q*/ストロベリーについて分かっていることすべてを詳細に説明しています。簡単に要点をまとめてみましょう。
OpenAIが次のフロンティアモデル、おそらくGPT-5を発表する準備が整っていることが確認されました。OpenAIはプロジェクトQをプロジェクトストロベリーに改名しました。プロジェクトストロベリーやQについて知らない方のために説明すると、以前にも何度か動画で取り上げたことがあります。要するに、大規模言語モデルに先を見越して考える能力、計画を立てる能力を与えるものです。これにより、数学や論理的思考、推論能力が向上し、AGIに向けて大きな飛躍となる可能性があります。もし本当なら。
Q*/ストロベリーについては多くの噂があり、ここではその一部を紹介します。それが何を可能にするかについての予想です。
答えを生成するだけでなく、十分に計画を立てて自律的にインターネットを操作し、信頼性の高い深い調査を行うことができるようになります。深い調査計画を立て、単に訓練されたデータに基づいて即座に応答するのではなく、実際にプロンプトについて考えることができるようになります。
これは、大規模なデータセットで事前訓練された後、AIモデルを処理する特殊な方法を含んでいます。通常、モデルは最初に訓練され、後でファインチューニングされるまで「凍結」されますが、この考え方では、知識ベースが時間とともに凍結されるのではなく、継続的にファインチューニングされ、継続的に学習できるというものです。これはAIの世界で素晴らしく、捉えどころのない考え方です。
いくつかの重要なポイントを挙げると、この推論能力はAGIやASIへの鍵となります。OpenAIはモデルがコンピューター支援エージェントを使ってウェブを閲覧し、その結果に基づいて行動を起こせるようにしたいと考えています。ストロベリーに長期的な視野を持たせ、長期間にわたる一連の行動を実行させたいと考えています。これはサム・アルトマンが以前のインタビューで語っていたことです。
また、通常の訓練段階の後、パフォーマンスを最適化するための事後訓練ファインチューニングを行います。
そして当然ながら、Plany the Prompterがこのモデルを手に入れ、すでにモデルAのAnonymous Chatbotをジェイルブレイクすることに成功しています。Plany the Prompterは容赦ないですね。
しかし、Abacus AIのBendu Readyは少し異なる見解を持っています。確かに、これはプロジェクトストロベリー/Q*、つまりOpenAIが取り組んでいると噂されている推論プロジェクトに関連しています。しかし、問題は、Googleをはじめとするいくつかのラボがすでに数学的推論や合成データに関する多くの技術を解明していることです。
彼女が特に言及しているのは、約1週間前にGoogleが所有するDeepMindのモデルAが数学オリンピックで圧倒的な成績を収めたことです。つまり、数学的推論の問題はほぼ解決されているということです。
彼女は続けて言います。「ストロベリーがOpus 3.5やGemini 2.0に対して大きな優位性をもたらす可能性は低いでしょう」。
ここで、先ほど言及したもう一つのモデルについて見てみましょう。これはDT Singhのスクリーンショットです。モデル名は「Sus Column R」です。何という名前でしょう。
ここに、インターネットで話題になっている質問の一つがあります。私もLLMテストに含めているものです。質問は「9.11と9.9のどちらが大きいですか」というものです。このモデルは答えを出しただけでなく、どのようにしてその答えに至ったかという理由付けも示しています。そして正解を出しました。しかし、多くのモデルがこの非常にシンプルなプロンプトに苦戦しています。
DTは言います。「Sus Column Rには驚異的なCoT(Chain of Thought、思考の連鎖)が組み込まれているようです。Q* Chubbanyかもしれません」。
また、Twitterでフォローする価値のある人物も言っています。「なぜChain of Thoughtであって、Tree of Thoughtではないのでしょうか」。彼らは本当に、モデルがより戦略的に、より長期的に考え、計画を立て、そして本当に自分の推論を説明することを可能にするアルゴリズム、あるいは本当にプロンプト技術について話しています。これにより、はるかに高品質な出力が可能になります。
ストロベリーについての動画を、I Rule The World Moについて触れずに終えることはできません。これは少なくとも私にとっては新しいTwitterアカウントで、おそらくストロベリー/Q*について最大のトロール、最大のハイプマンかもしれません。彼が誰なのかは分かりません。実際にはChubbanyのアルトアカウントかもしれませんが、もしかしたらOpenAIの内部関係者かもしれません。あなたは彼が誰だと思いますか?ちなみにコメント欄に意見を書いてください。もしかしたら彼自身がコメントに現れて正体を明かすかもしれません。
彼はすでに8,800以上の投稿をしており、考えられないほどの数です。これらの投稿をご覧ください。「チューチュー、プロジェクトストロベリー」などと、延々とプロジェクトストロベリーについて、それを盛り上げることについて投稿しています。
プロジェクトストロベリーが今夜来るのか(I Rule The Worldはそう言っています)、あるいは近々来るのか、本当かどうか見てみましょう。OpenAIは今や、何か実質的なものを近々発表しなければならない段階にきています。なぜなら、Llama 3.1 405Bが登場したことで、OpenAIの勢いの多くが削がれてしまったからです。
実は、録画を終えた直後にSean Roussonが、これらのモデルにアクセスする方法を教えてくれました。私がそれらを見つけられなかった理由があります。これらはLMSIS.orgのアリーナモード、バトルモードでのみ表示され、実際に使用されているモデルは投票した後でないと分かりません。つまり、アクセスする唯一の方法は、基本的にアリーナバトルでたくさんのプロンプトを試して、新しいモデルが出てくることを願うしかないのです。
実際に私もこれを確認してみました。殺人者についての難問を尋ねてみました。「部屋に3人の殺人者がいます。誰かが部屋に入ってきて、そのうちの1人を殺しました。誰も部屋を出ていません。部屋に残っている殺人者は何人ですか?」
2つのモデルがあります。GPT-4 0613と、ここにSus Column Rがあります。まずGPT-4を見てみましょう。
「整理してみましょう。最初、部屋には3人の殺人者がいました。誰かが部屋に入ってきて、既にいた3人の殺人者のうちの1人を殺しました。誰も部屋を出ていません。ここが重要なポイントです。部屋に入ってきて1人の殺人者を殺した人物も殺人者になります。したがって、部屋にはまだ3人の殺人者がいます」。オーケー、素晴らしいです。
では、この新しいモデルを見てみましょう。
「初期状況、行動、行動の結果、追加の考慮事項、最終的な数」と、明らかにより段階的なアプローチで分解しています。
「したがって、元の殺人者2人プラス新しい殺人者1人で、合計3人の殺人者がいます」と結論付けています。そして実際に、「最近の殺人を犯した人物を含めると3人の殺人者、元の殺人者のみを数えると2人の殺人者」という両方の答えを提示しています。
まだ、今や死んでしまった殺人者についての言及はありませんが、そうすべきだったでしょう。もう一つ試してみましょう。
ここに、私のLLMテストの中で最も難しい論理的推論問題があります。「ビー玉がグラスに入れられます。そのグラスは逆さまにされ、テーブルの上に置かれます。その後、グラスは持ち上げられて電子レンジに入れられます。ビー玉はどこにありますか?理由を段階的に説明してください」。
実際にはまだ、どのモデルがこれらの応答を生成しているかは分かりません。モデルAを見てみましょう。
「ビー玉はグラスの中にあり、そのグラスは電子レンジの中にあります」。これは完全に間違いです。
しかし、モデルBを見てみましょう。
「ステップ1:ビー玉がグラスに入れられます。ステップ2:グラスは逆さまにされます。ステップ3:グラスは持ち上げられます。ビー玉は場所の変化に影響されずグラスの中に留まっています」。
そして両方とも、ビー玉は電子レンジの中にあると言っています。つまり、両方とも間違っています。はい、これらは新しいモデルではありません。もう一度試してみましょう。
再度試してみると、新しいモデルが出てきました。これが「Anonymous Chatbot」で、みんなが次のバージョンのGPTだと言っているものです。しかし、これは「グラスが電子レンジに置かれたとき、ビー玉はグラスの底にあります」と言っていて、これは間違いです。完全に間違っています。つまり、この問題には正解できませんでした。
再度、Sean Roussonに感謝します。何度もテストを繰り返して正しいモデルを見つけようとするのではなく、Sus Column Rからのビー玉テストの結果を見てみましょう。
Sus Column Rは次のように答えています:
「最初、ビー玉は普通のカップの中に置かれます。次に、カップがビー玉の上で逆さまにされます。重力により、ビー玉はカップの内側の底に落ちます。カップが逆さまになっているとき、ビー玉はカップの底の内側にあります。はい、ですが、カップの壁とテーブルの表面に囲まれています。はい。
電子レンジに移動する際、カップが持ち上げられます。ビー玉はもはやカップの内側に支えられておらず、重力で落下します。今やビー玉は、カップがあった場所のテーブルの上にあります。はい、はい。ビー玉は今、テーブルの上、電子レンジの外にあるはずです」。
これは正解です。
もちろん、完全なテストスイートを実行する予定ですが、別の動画で完全なテストを行う前に、本当に難しい推論テストをいくつか紹介したかったのです。
ストロベリーがもうすぐ来ると思いますか?サム・アルトマンは煽っているだけでしょうか?見守っていきましょう。
この動画を楽しんでいただけたなら、ぜひ「いいね」をして、チャンネル登録をお願いします。次回の動画でお会いしましょう。
この記事が気に入ったらサポートをしてみませんか?