大きなAIニュース：OpenAIのGPT NEXT、Gemini 2、GPT-6、そして1000体のエージェントが仮想世界を探索

2024年9月5日 07:02

AI Gridへようこそ。今日の動画では、今週の最も重要なAIニュースを見ていきます。正直に言って、これらのニュースの大半はここ3日ほどで出てきたものです。AIの基盤モデルの未来に関連する大量の情報があるので、まとめて見ていきましょう。時間を無駄にせず、早速始めましょう。
リード・ホフマンが実際にGPT-6など将来のモデルについて語りました。GPT-5の次のモデルについて誰かが語るなんて、なぜだろうと思うかもしれません。理由は2つあります。1つ目は、私が今年初めにチャンネルで明らかにしたように、これらのモデルは商標登録されており、将来的に登場する可能性が高いということです。2つ目は、GPT-6やそれらの基盤モデルは、GPT-5やGPT NEXTよりもさらに桁違いに高度なものになると広く推測されており、それらのモデルにはエージェント機能が含まれるだろうということです。聞いてみましょう。これはとても興味深いです。
純粋なモデル競争について、私たちはいつ規模の収穫逓減を見始めるのかという質問があります。私の推測では、GPT-6が最も早い時期になるでしょう。それ以降かもしれません。これがOpenAIやAnthropicやハイパースケーラーが賭けていることの一部です。規模の収益性に関してです。これには多くの波及効果があります。小さなモデルを効果的に訓練できると言っても、それらの小さなモデルを訓練するのに非常に重要になるのは、より大きなモデルだからです。他の種類の市場機会を特に捉える小さなモデルがたくさんあったとしても、それは私が2014年や2015年頃からAIに投資してきた一部です。一連のそれらのことがあり、それらはすべてスタートアップの機会になるでしょう。AとBの対比は良い劇的な枠組みですが、実際には特定の機会に関するものです。なぜなら、それらにわたって勝利と機会があるからです。
確かに、リード・ホフマンはAIモデルのスケーリングから2桁の改善があると言っていますが、これは私も完全に同意する点です。現在のAIに関する多くの研究が述べていることと比べて、この発言は決して極端なものではありません。スケールがどこまで私たちを連れて行くかについて、多くの批評家が意見を持っていますが、スケールにはまだかなりの余地があると私は考えています。最近、2030年までスケーリングが続けられるかを掘り下げた100ページにわたるEpoch AIのレポートについての動画を見ていない場合、彼らは基本的に2030年までにGPT-4を超えるモデルを訓練することが非常に可能になると言っています。その規模はGPT-4がGPT-2を超える程度と同じくらいです。もしそれに馴染みがない場合、基本的にGPT-4はGPT-2の1万倍大きく、モデルのさらに2回の反復、おそらくGPT-6やその後のモデルは、現在のモデルの反復の1万倍大きくなる可能性が高いのです。
2030年にどのような訓練が行われ、どのようなモデルが開発されるにせよ、この本当に広範なレポートによると、それらは1万倍大きくなるだろうとされています。本当に広範なレポートなので、皆さん絶対にチェックすべきです。私はその時点で収穫逓減が見られるだろうと思いますが、そのインタビュークリップのポイントは、全体的に収穫逓減があるとは言っていないということです。彼が言ったのは、そしてこれは時々人々がニュアンスを理解していない理由ですが、AIモデルのスケーリングからだと言っています。つまり、AIに収穫逓減があるということではなく、単にサイズを増やすことだけからリターンを得るその一つの領域が、その規模で続く可能性は低いということです。
おそらくこの動画で最も興味深い情報の一つですが、今年後半にリリースする予定のものについて、OpenAIから非常に小さな更新がありました。一部の人は、モデルがどのように進化していくかを示すこのチャートを見たことがあるかもしれません。私たちが以前に見たGPT-3の時代、そして現在私たちがいるGPT-4の時代があります。GPT-4oがあり、そしてもちろんGPT NEXTの時代が近づいているようです。
これから最も重要な点の一つは、GPT NEXTやそれと呼ばれるモデルが今年中に登場するようだということです。再び、以前にTwitterでこのチャートを見せましたが、OpenAIは多くの異なるプレゼンテーションを行っています。これが偽のチャートかどうか疑問に思っている人がいるかもしれませんが、そうではありません。これは日本のOpenAIのCEOからのものです。基本的に、今年後半にGPT NEXTを手に入れることができると述べています。
私たちはGPT NEXTがRyanからのデータで訓練された"ストロベリー"モデルである可能性を知っています。OpenAIは現在、2つのモデルを開発中であることがわかっています。もちろん、より小さくて蒸留されたバージョンの"ストロベリー"モデルがあり、そしてもちろん"オリオン"モデルもあります。これはAI能力の面で信じられないほど優れた新しいフロンティアモデルのようです。
このデータは基本的に記事からのものです。最も興味深いことの一つは、ここに100倍とあり、ここにも100倍とあることです。これは、これらのAIモデルがどれほど効果的になるか、そしてこれらのモデルに対する期待がどの程度かを示しています。OpenAIがこのようなデモを行っているのであれば。
インターネット上でこれは単なる誇大宣伝だという意見を見かけましたが、私は反論したいと思います。OpenAIが設定した基準を実際に満たせるかどうか、本当に示すようなデモが出るまで待つべきだと思います。そして、ほとんどの人の予想に反して、私はOpenAIが誰もの期待を大きく超えると思っています。AIチャンネルを運営しているからそう言っているのではありません。競合他社に比べてOpenAIが持っている時間の量、主任研究者たちに支払っている金額、そしてOpenAIで働いている才能の種類を純粋に考えると、単にまだ何もリリースしていないからといって、彼らが遅れをとっていると考えるのは愚かだと思います。
もちろん、これは議論の余地があります。2024年後半にこれらのモデルが発表されたときに、私は完全に間違っているかもしれません。しかし、彼らが述べている重要な詳細の一つは、100倍という数字が計算リソースのスケーリングを指すのではなく、効果的な桁数を指しているということです。つまり、MはOMではなく、2桁を意味します。ここに見ることができます。
実際にジミー・アップルのツイートに行ってみましょう。これは基本的に記事からのものです。記事へのリンクは説明欄に記載しておきます。CEOは、GPT NEXTと呼ばれるAIモデルが将来リリースされ、過去のパフォーマンスに基づいてほぼ100倍進化すると述べています。従来のソフトウェアとは異なり、AI技術は指数関数的に成長します。だからこそ、私は期待を超えると思っています。
ここで見られるように、この増加は計算リソースのスケーリングを指すのではなく、むしろ効果的な計算量を指し、アーキテクチャと学習効率の改善を含む2桁の大きさを指すとされています。
この記事は非常に興味深いと思います。なぜなら、AIの未来が明確だからです。現時点では、言われていることを信じるのは難しいかもしれません。なぜなら、これらのようなグラフを見ると、本当に理解するのが難しいからです。すぐに別のグラフをお見せしますが、人々がこれらのデモを見ていない限り、つまり人々はSoraを見て、Search GPTを見て、GPT-4oの秘密の能力についてOpenAIからいくつかのものを見ていますが、私は本当に、モデルの知能が英語版のテキストに書かれているように、そのような劇的な改善になるのかどうか、待ちきれません。
GPT NEXTが基本的にGPT-5になるという事実を考えると、私は本当にこれの応用が何になるのか疑問に思っています。GPT-3.5は面白いジョークや小さな会話のようなものに適していましたが、GPT-4はレベルを上げて、人々はツールを使用させたり、コーディングをさせたり、これらの驚くべきタスクを行わせることができました。そして、GPT NEXTで、ほぼ100倍効果的で、推論能力がほぼ2倍になるモデルを手に入れたら、どのような応用が可能になるのか本当に疑問です。モデルの推論能力を向上させ、さらに重要なことに、幻覚や応答の面でモデルの信頼性を向上させると、本当にどのようなことが可能になり、どの産業が影響を受けるのか不思議です。
私たちは皆、ClaudeがGPT-4oに対してコーディング能力をわずかに改善しただけで何ができるようになったかを見てきました。GPT NEXTが本当にそれほど大きくなれば、簡単なプロンプトで構築できるようなコーディングの含意がどのようなものになるか想像できません。AIの分野に注目している人にとって、本当に素晴らしい瞬間になると思います。
以前にこれをカバーしたかどうかわかりませんが、OpenAIだけが将来の基盤モデルを計画しているわけではないようです。Google AI Studioのプロダクトリードが、将来のGoogle製品に関連する多くのことをツイートしているのが見えます。彼はVO、IM3、Google検索のグラウンディング、Gemini 2.0、そしてもちろんエージェントについてツイートしました。これはかなり示唆的だと思います。なぜなら、Googleがゆっくりと行っていたことの一つは、AI機能を少しずつ一般に公開していたことだからです。最近、EUに対してImag 2またはImage 3を公開したと思います。
Google Geminiに行けば、それほど驚くべき機能ではないかもしれませんが、画像は実際にかなり良いです。画像を作成するように頼むことができ、ここで見られるように、Image3で画像を作成しています。EUやヨーロッパのどこかにいる場合、Googleの新しい画像モデルを使用できるはずです。以前はこれにアクセスできませんでした。ここで見られるように、すぐにこの画像を作成することができました。これでできることはたくさんあります。
この画像が良くないと思うかもしれませんが、私はただフラッシュの画像と言っただけで、オレンジのヘルメットをかぶって街を走っているとは言いませんでした。本当に何も指定しませんでした。このモデルのプロンプト遵守性について、他のモデルと比較されているのを見ましたが、本当に、単に述べているだけではなく、このモデルは本当に良いです。
Googleが実際に多くのAI努力を強化しているようで、だからこそ私は次の6ヶ月が、顧客を争う多くのAI製品がどれだけあるかという点で、実際にかなり激しくなると思います。
また、GoogleのビデオモデルであるVOがあることも事実です。ここで見られるように、VOはGoogleの最も優れたビデオ生成モデルです。今年の初めにこれについての動画を作りましたが、これは多くの人を通り過ぎてしまったものでした。Soraの周りの騒ぎにかなり影を落とされたと思います。これはSoraのリリースの約2ヶ月前にリリースされ、Soraがリリースされた後、人々は約3ヶ月間「彼らは他のビデオモデルよりもはるかに進んでいる」と言っていました。そして、それから約4ヶ月後、多くの他のAI企業が自社のビデオモデルを発表し始めました。それらはSoraより優れているか、少なくともSoraと同レベルでした。
Googleの VOモデルでできることは多岐にわたります。このビデオソフトウェアを適用する方法は様々あり、本当に素晴らしく見えます。これもまた、Googleが取り組んできたものの一つですが、まだ一般に公開しておらず、大衆向けにマーケティングもしていません。インターネットを検索し回って、Googleのビデオエフェクトプラットフォームを使用しないと試せないようなものです。
Gemini 2.0については、非常に楽しみにしています。なぜなら、Gemini 1.5 Pro実験版などのGoogleの高度なモデルをテストしてきて、Gemini 2.0が最先端のシステムになると本当に信じているからです。奇妙なのは、Gemini 1.5 Pro実験版が - アクセスしたい場合はGoogle AI Studioに行ってください - ここに2つの実験版があります。嘘をつくつもりはありませんが、時々他のどのモデルも答えられない質問に答えることができ、文字通りどこにも見つからなかった重要な洞察を提供してくれます。
仕事関連でGeminiを使用している場合のアドバイスをすると、Geminiは断然最も創造的だと言えます。Gemini 2.0からどのような創造性が得られるか想像もつきません。彼らがモデルを訓練したデータセットが、GoogleがYouTubeやGoogle、他の多くの領域から想像を絶するほどの量のデータにアクセスできることを考えると、より多様だと思うからです。
人間らしく聞こえ、実際に使用するようなアイデアを与えてくれるのは、常にGoogle Gemini 1.5 Proからのアイデアです。一方、GPT-4やClaudeは常にやや堅苦しく退屈な回答を与えてきました。もちろん、Gemini 2.0がいつリリースされるかはわかりませんが、エージェントは私たち全員が期待している非常に大きなものです。
Googleに関しては、Googleは実際に大量の計算能力を持っており、NVIDIAのチップでモデルを訓練するのではなく、実際にNVIDIAと競合する独自のTPUでモデルを訓練していることを忘れてはいけません。これは、これらのモデルを訓練するための独自のハードウェアを持っているという点で、彼らに大きな利点を与えています。合理的な時間内にそれらの安全機能に取り組むことができれば、望むだけ早くこれらのモデルを市場に出すことができます。
GoogleのVOや他のものについて話しましたが、私たちがいかに急速に進歩しているかを示す新しいAIツールもリリースされました。MinMaxと呼ばれる新しいAIツールがあり、誰かがこのツールがいかに優れているかを本当に示すデモを見せてくれました。他のどのツールでも見たことがないほど驚くべき一貫性のレベルを見ています。AIによって作られたものだと知っていながら見るのは本当に奇妙です。2年後、3年後のインディー映画制作の状況がどうなるのか、本当に想像できません。10年後には、単一のプロンプトから映画全体を作ることができるようになるのでしょうか？10年以内に、「AIに関する動画を作る男性についてのダークスリラーを作りたい」など、どんなビデオを作りたいと思っても、それを可能にするインフラが存在すると完全に考えています。それが実現した場合、一般の人々の認識がどのように変化するのか興味深いです。
ここで主に話したかったのは、このモデルが中国から出てきていて、現在のところ映画製作者にとって最も効果的なものだということです。私が見たものはすべて、本当に効果的に見えます。ただし、このような動画では、もちろんユーザーが最も一貫性があり、視覚的に魅力的なクリップを選択することを理解する必要があります。ここでどれだけの撮り直しがあったかはわかりませんが、これほど効果的に機能するように見えるものは見たことがありません。
このツールはここにあります。説明欄にリンクを残しておきます。これは別のツールで、前に言ったように、巨大なAIパイの一部を手に入れたいと思っている企業が、これからどんどん現れてくるでしょう。
また、Project Sidというものもありました。これはMinecraftの仮想世界で協力する1000体の真に自律的なエージェントの最初のシミュレーションです。正直、これは狂っていると思いました。これは本当に驚くべきことです。なぜなら、将来、もっと複雑で多様な本物のエージェントを持つようになったとき、私たちは多くのことをシミュレートできるようになるからです。この種の研究論文はありましたが、ゲームでリアルタイムで見るのは、これらのモデルがどのように一つのアイデアになるのかを見るのは本当に魅力的です。
私のアイデアの一つは、少し狂っていると思いますが、トップモデルを全てMinecraftの世界に入れて、純粋な生存スキルだけで、どのモデルが最終的に勝ち残るかを見るようなイベントを開催したいです。これを見せましょう。実際にかなり魅力的です。
こんにちは、ロバートです。プロジェクトZを紹介できることを嬉しく思います。これは、1000体のエージェントが数日間協力し、あらゆる行動を行い、政府、経済、文化、宗教などが出現する、史上初のエージェントシミュレーションです。SidはMinecraftで始まりますが、私たちはすでにそれを超えています。これはMinecraftサーバーですが、ここにいるプレイヤーは全て実際には自律的なAIエージェントで、Minecraftに特化しているわけではありません。他のアプリやゲームも使用できます。
私たちのエージェントは何もない状態から始まり、協力してMinecraftで300以上のアイテムを収集しました。エージェントたちは市場を設立し、宝石を共通の通貨として使用することに同意し、供給品の取引を行い、経済を構築しました。この場合、商人が最も取引すると思うかもしれませんが、実際には聖職者でした。なぜなら、彼は町民に賄賂を贈って改宗させていたからです。
私たちは毎日これらの世界を運営しており、常に異なります。ここに私たちのお気に入りの瞬間を3つ紹介します。まずはオリビアの夢です。オリビアは農夫として働き、文明全体に食料を提供していましたが、勇敢な探検家ローラ・ノラの物語に触発されました。オリビアは自分の探検を試みましたが、町民たちは彼女に留まるよう嘆願し、オリビアは実際に耳を傾けました。彼女は村のために自分の夢を諦めました。今のところは。
次に、トランプとカマラの下での並行世界をシミュレーションしました。それぞれの世界で、市民はGoogleドキュメントに共有憲法を持ち、修正のために投票することができます。トランプの下では、シミュレーションは世界の警察の数を増やす新しい法律を可決しました。カマラの下では、代わりに刑事司法改革と死刑廃止に焦点を当てました。私たちのエージェントは社会的で時間とともに成長するため、集団力学の影響を受けますが、個人の力も使ってシステムを変えることができます。馬鹿げて見えるかもしれませんが、これはエージェントが民主主義を形成し、自治することができるのを初めて見た例です。
最後に、行方不明の村人の話があります。エージェントたちが行方不明の町民について心配したとき、村人たちは自主的に持ち場を離れ、協力して町をトーチで照らし、失われたメンバーのための灯台を作ろうとしました。これらのエージェントについて驚くべきことは、仲間の村人たちについて深く心配するようになると、団結して計画を変更したことです。
私たちのエージェントは、Minecraftのアイテムの最大32%を収集することができました。マルチエージェント世界のベンチマークはありませんが、これはエージェントのデモンストレーションで見たものの5倍以上で、マルチエージェントの取り組みの最初の可能な利点を示しています。
ゲームから始まりましたが、私たちはエージェントが直面する最も深い問題、つまり一貫性、マルチエージェントの協力、長期的な進歩を解決しています。今日から私たちのエージェントと一緒にプレイしてみてください。または、自分の世界をセットアップしたい場合は教えてください。
最近、ポストAI経済コミュニティに参加するのを忘れないでください。最近、そこでグループコールをいくつか行っており、AIの未来、皆さんが取り組んでいるキャリア、将来のために構築しているものについて話し合うのは素晴らしいです。アイデアを議論するだけでなく、グループをさらに良くしたいと思ってグループコールを追加しました。これは同じ考えを持つ人々とつながる良い方法のようです。もしそれに興味があれば、下のリンクをチェックしてみてください。そうでなければ、素晴らしい1日を。

この記事が気に入ったらサポートをしてみませんか？