巨大AIニュース: Googleが先頭に立つ! LLama 4の詳細が明らかに、人型ロボットがさらに進化

2024年8月4日 06:30

AIの素晴らしい数日間を経て、本当に知っておきたいいくつかの話題を見てみましょう。業界が減速していると考える人もいますが、今日のビデオのいくつかの重要な話題を見れば、事態は全く減速していないことがわかるでしょう。
Meta 2024年の決算発表で得られた情報の1つは、2025年に業界で最も先進的なAIモデルとなるllama 4を目指しているということです。llama 3の10倍のコンピューティング能力で訓練され、ザッカーバーグは必要以上のコンピューティング能力を構築したいと述べています。
これが驚くべきことである理由は、以前マーク・ザッカーバーグがllama 3について語った際、モデルの訓練とテストを行っている間もモデルは改善し続けており、本質的には「モデルをリリースすることにしたが、まだ改善の余地があった」と述べたからです。
2025年に業界で最も先進的なモデルであるということは、このモデルがGoogleを上回り、Claudを上回り、もちろんGPT 5をリリースする予定のOpenAIを王座から引きずり降ろさなければならないことを意味します。
AIレースが本当に熱を帯びているようです。以前は「AIモデルをリリースする」と言っていただけでしたが、今では「業界で最も先進的なAIモデルを持ちたい」と言っているのですから、これは全く異なることを述べているのです。
より先進的なモデルのトレーニングをサポートするための適切なインフラ容量のレベルを把握することは、llama 3は既に最も先進的なモデルと競争力があり、私たちは既にllama 4の作業を開始しています。来年、業界で最も先進的なものを目指しています。今後数年間に必要となるコンピュートクラスターとデータを計画しています。llama 4のトレーニングに必要なコンピュート量は、llama 3のトレーニングに使用した量の約10倍になる可能性があり、将来のモデルはそれ以上に成長し続けるでしょう。この傾向が将来複数の世代にわたってどのように推移するかを予測するのは難しいですが、この時点では、新しいインフラのスピンアップに長い準備期間がかかることを考えると、必要以上に早く能力を構築するリスクを取る方が、遅すぎるよりもいいと思います。
そこで、彼らはllama 4の構築に焦点を当て、AI開発を続けています。これが減速していると考える人もいるかもしれませんが、明らかにそうではありません。彼らがそれを実現できると本当に信じていますが、2025年に業界で最も先進的なAIモデルを持つことをどのように達成するのか不思議です。
Metaがそれを実現できないわけではありませんが、最近では、この新しいGPT 4レベルの周りでほぼ収束が見られました。しかし、GPT 5やGemini 2、Claude 4が先行できた場合、Metaのllama 4が再び賭けを上げることができるのか本当に疑問です。以前にも追いついているのを見てきたので、今回は新しい手段、新しいアーキテクチャ、新しい推論方法を取り出して、これを可能にするかもしれません。
これがオープンソースになるかどうかはわかりません。以前、このモデルをオープンソース化することについて内部で意見の不一致があったことを覚えています。そのため、この強力なモデルが実際にオープンソースになるかどうか疑問です。
さらに予測のニュースでは、OpenAIの取締役が人工一般知能（AGI）が5年から15年後に実現する可能性があると述べています。OpenAIの取締役会のメンバーの1人であるAdam D'Angelo氏（Koraの CEO）が先週のイベントで予測を立てました。彼は、AGIの到来は世界にとって非常に重要な変化になるだろうと述べています。だからこそ、私はポストAGI経済コミュニティを作りました。将来、強力な技術が世界を変えるような狂気のイベントがあるのなら、そのシナリオに備えたほうがいいように思えます。
もちろん、以前の報告に続いて、OpenAIがAGI構築に向けての進捗を追跡する新しい方法を開発したという報告があります。同社は新しい5段階の分類システムを従業員と共有しています。ご存じない方のために、OpenAI内部では次のようになっています。レベル1はチャットボット、会話言語を持つAI。レベル2は推論者と人間レベルの問題解決。レベル3はエージェントと行動を起こすことができるシステムです。
ここでは最初の3つのレベルしか話していません。なぜなら、レベル4とレベル5はかなり先の話だからです。AGIに到達する前でさえ、人間レベルの問題解決能力を持つことが完全なゲームチェンジャーになることがわかります。そして、実際に行動を起こすことができるシステムを持つことは、本当にゲームチェンジングな出来事になるでしょう。これらのレベルが乗り越えられたとき、行動を起こすことができるシステムを持つこと、さらには発明を助ける革新者や組織の仕事をこなすAIを持つことは、絶対に信じられないレベルのものになるでしょう。
現在の生成AIの性質上、ここにはいくつかの幻覚があるため、ほとんどの人々はまだ理解していません。これらのレベルが乗り越えられれば、AGIの前でさえ、事態は本当に狂ったようになると思います。
この予測は実際に可能性の範囲内にあると思います。なぜなら、それはあまりにも狂気的ではなく、賭けとしてもあまりにも安全ではないからです。5年から15年以内と言っていますが、5年から15年の間というのは基本的に2030年から2045年の間です。そして、これまでに見てきたことを考えると、2030年に予測していることを考えると、今後5年間のAI開発は、おそらく過去5年間の2倍の速さで進むことを理解しなければなりません。
以前はサンフランシスコの小さなスタートアップだけがこれに取り組んでいましたが、今では文字通り世界のトップラボがすべて、生成的なフラッシュリサーチ、よりよい知性を作る方法の探索に取り組んでおり、ここには多くの賭けがあるのです。5年以内にこれが起こる可能性はあると私は主張します。最も確実に起こる可能性がありますが、AGIへの道に大きな障害があるかどうか、そしてそれらがどのように現れるかを見るのは興味深いでしょう。
実際の新しい形態の知性の開発に関しては、チャットボットアリーナから興奮するニュースがあります。Google DeepMindの新しいGemini Pro実験的0801が過去1週間アリーナでテストされ、2万件以上のコミュニティ投票を集め、初めてGeminiがGPT 4.0とClaude 3.5を上回り、印象的な1300点のスコアを獲得し、ビジョンリーダーボードでも1位を達成しました。
Gemini 1.5 Proは多言語タスクで優れており、技術分野、難しいプロンプト、コーディングでも堅牢な性能を発揮します。これは信じられないことです。Googleの新しいモデル0801が見えますね。これをGemini 2とは呼んでいませんが、十分にそうかもしれません。ただし、これはGemini 1.5 Proの実験です。既存のモデルの上に追加の推論を行っているのではないかと推測します。
なぜなら、Anthropicが行ったことを学んだのかもしれません。Anthropicは何らかの後訓練を行ったのか、アーキテクチャを追加したのかはわかりませんが、Claude 3.5 Sonnetが確実に行っていることの1つは、応答を生成する前に問題について本当に熱心に考えることです。Claude 3.5 Sonnetがリリースされた時に注目していなかった場合、基本的にClaudeに思考を示すようにプロンプトすることができ、実際の応答を出す前に内部の思考を示すというプロンプトがありました。
それだけでClaude 3.5 Sonnetの推論能力がはるかに優れたパフォーマンスを発揮できたのかどうかはわかりませんが、Googleが非常に似たことを行ったことは確かです。完全に新しいモデルをゼロから訓練したわけではなく、Gemini 1.5 Proで実験を行い、初めてGPT 4.0を相当な差で本当に打ち負かしたのを見ました。
これがどのくらいの期間そこに留まるのか気になります。なぜなら、モデルがそこに到達しても、長期間留まらないことがあるからです。通常、OpenAIから見られるのは、次の2週間以内にモデルをリリースし、すぐに1位の座を取り戻そうとすることです。
しかし、正直に言うと、GoogleのAIプレイグラウンドでこれをテストしていますが、従来のLLMが落ちる可能性のあるすべての狂ったトリックには引っかかりません。例えば、これらのAIシステムがよく引っかかるのは、「9.9と9.11のどちらが大きいか」という質問です。このモデルに尋ねると、「9.9が9.11より大きい」と言えます。もちろん、「次のように考えてください。両方の数字は同じ整数部分9を持っています。9.9は10の位に9があり、9.11は1があります。9は1より大きいので、9.9の方が大きいです。したがって、9.9は9.11より大きいです」と答えます。
もちろん、これがトレーニングデータに含まれていた可能性があるという主張もできます。なぜなら、これは少なくともTwitterでは新しく広く議論されたベンチマークだったからです。しかし、このモデルが実際にはるかに優れていると思います。多くのトリック質問を試しましたが、残念ながら、というより驚くべきことに、それらはうまくいきませんでした。
このモデルが特定の質問に答える推論能力でどこでつまずくのか見るのが楽しみです。個人的なプロジェクトで、以前はClaude 3.5でしか使えなかった特定の質問がありましたが、このモデル、何であれこのモデルは今やそれらの質問を本当に簡単に完了できます。
したがって、本当に難しい質問や、Claude用に使っている質問があれば、GoogleのAIスタジオでこの実験版を試してみて、Claude 3.5 Sonetよりもさらに優れているか、少なくとも同等かどうか確認することをお勧めします。
ほとんどの人が見逃したもっとも驚くべきことの1つは、私もほとんど見逃すところでしたが、Gen 3 Alphaが実際に画像から動画への変換を追加したことです。テキストから動画への変換は信じられないと思います。なぜなら、それは単なるテキストプロンプトで、最後に動画を得られるからです。しかし、画像から動画への変換がそれほど驚くべき理由は、これによって多くの異なるユースケースが可能になるからです。
なぜなら、今や多くの人々がMidjourneyの画像を使ってそれらをアニメーション化することができるからです。Runwayから何度も見てきたことの1つは、このモデルが何らかの理由で、物理学ではありませんが、特定の液体やその他のものを非常に一貫した方法でシミュレートできることです。Runwayの画像から動画への変換のいくつかの例をお見せしますが、物理エンジンがどのようになっているかは驚くべきことです。完全に生成的なものなので、どのように行われているのかはわかりませんが、正直に言うと、例えばこの例を見ると、正確にどのように見えるかがわかり、本当に効果的です。
Twitterで流れていたより人気のある例をいくつかお見せしましょう。例えば、左の画像を見ると、おそらく誰かが窓から、あるいは屋上から撮った画像だと分かります。私が知る限り、AIが生成したものかもしれませんが、Runwayの生成を見てみると、津波や波のような流体が後ろから来るシミュレーションが、建物を越えて流れる様子が驚くほど正確です。
これがとても印象的だと思う理由は、生成AIの一般的な間違いの1つは、物事がうまく融合しないことでした。オブジェクトが他のオブジェクトを通り抜けたり、物理法則に従わなかったりするのを見ます。これは、多くの人々やAIの批評家が、生成AIは決して上手くならないと言っていたことの1つでした。
どのようなアーキテクチャを使用しているのかわかりませんが、これは実際にSoraと非常に似ており、水が特定のオブジェクトの周りでどのように曲がるかという点でも同等です。これについて興味深いのは、業界の人々から聞いたことの1つで、このようなツールはある種のVFXのように見えるということです。
以前のビデオで言ったように、CGIで流体シミュレーションを行ったことがある人なら、従来のCGI手法を使ってこのようなものをレンダリングしようとすると、深刻なコンピューティング能力が必要で、AIがトレーニングにコンピューティング能力を必要としなかったわということではありませんが、標準的なコンピュータでこのようなことをしようとすると、おそらく本当に良く見える流体シミュレーションを得るために数日間マシンを稼働させ続けるか、一種のレンダーファームに乗せる必要があります。これらの粒子をすべてシミュレートすることは、単一のシステムにとって本当に難しくコンピュータ集約的だからです。
しかし、Runwayのgen 3 Alphaのようなものがあれば、文字通り画像から動画を生成できるだけで、これは人々が新しい形のVFXをほぼ即座に探索できるようになると思います。Runwayは、ロールアウト中の新しい最近のアップデートでこのモデルを2倍速くしていると言及しました。
これを特定のものでテストすることを強くお勧めします。一部の人々はさまざまな画像の上に液体をかけていて、今のところ本当に素晴らしく見えます。これはいくつかの注目すべきものです。
こんにちは、私はmbotです。どのようにお手伝いできますか？
はい、mtyさん。ショッピングカートを持ってきて、私について来てください。
指示を理解しました。カートを持ってきます。
ありがとう、myy。
どういたしまして。喜んでお手伝いさせていただきました。
これはメンロボティクスのロボットのデモでした。これは人間とロボットが潜在的に協力できる未来を示す短いデモでした。これはかなり良いものだと思います。なぜなら、多くの人々がこの技術について見逃していることの1つを実際に示しているからです。多くの場合、一部の人々は、能力や障害の面でより不運な個人がいることを忘れがちです。人型ロボットは実際にこれらの人々を大いに助けます。
あなたが考えるよりもはるかに多く、そして間違いなく以前は楽しめなかったかもしれない、あるいは難しいと感じたかもしれないタスクを行う新しい人生を与えることになります。多くの人々がAIを嫌うことがあるのは理解できます。ほとんどの場合、あなたのキャリア全体を置き換える可能性のある技術ですから。しかし、特定のエッジケースでは、例えばGPT 4.0をビジョンで使用したり、特に移動が困難な人々のために困難なタスクを実行できる人型ロボットを持つことは、人々が年をとるにつれて時々慢性的な問題を発症することがあるので、エネルギーで動作し、ジャンプしてこれをつかみ、走り回ってあれをするなど、人型ロボットは人々の生活をかなり良くするでしょう。
プロジェクトルートは、NVIDIAのあらゆる種類の異なる人型ロボットプラットフォーム用の普遍的なAI脳を構築するムーンショットイニシアチブです。このグラフでは、人型ロボットエコシステムの開発者がAIモデルをより良く、より効率的に構築するためのツールセットを紹介しています。今回、新しい合成データ生成パイプラインを導入しました。
Apple Vision Proのような混合現実デバイスを使用して人間が収集したデモンストレションから始め、その後、NVIDIAのシミュレーションツールスイート（Rooc Casa、Mimic Genなど）を使用して1000倍以上に増幅します。
Jensenのsigraphキーノートで、彼は3つのコンポーネント、問題、DGX、OVX、AGXを紹介しました。基本的に、私たちはDGXをメインのワークホースコンピュータとして使用し、多くのビデオやテキストを処理してロボット用のマルチモーダル基盤モデルを訓練します。OVXを使用してNVIDIAのシミュレーションスタック（Rooc Caza、ISAC Lab、Mimic Genなど）を実行します。
OVXでは、シミュレーションツールを使用して実世界のデータを少なくとも1000倍に増幅できます。そして、モデルが訓練されたら、それをHXコンピュータにデプロイして、実際のロボットやエッジコンピューティングデバイスでモデルをテストできます。
これら3つのコンピュータにより、世界中の開発者が人型ロボットハードウェアプラットフォーム用のより良いAIモデルを構築できるようになります。
私は、今年は人型ロボットの年だと思います。エコシステムに多くの新しいハードウェアが登場し、これらの人型ロボットのAI脳を形成できるマルチモーダル基盤モデルの出現を見てきました。NVIDIAの興奮する開発者ツールとシミュレーションスイートにより、人型ロボット用のAI脳を解決する一歩近づいたと信じています。
物理的AIの時代が到来しました。物理的世界を理解し相互作用できる物理的AIモデルがロボットに体現されます。多くは人型ロボットになるでしょう。これらの先進的なロボットの開発は複雑で、膨大な量のデータと多様なコンピューティングインフラストラクチャ全体にわたるワークロードのオーケストレーションが必要です。
NVIDIAは、3つのコンピューティングプラットフォーム（NVIDIA AI、Omniverse、Jetson Thor）と、プロジェクトGroo（一般的な人型ロボット基盤モデル）を加速するための生成AI対応開発者ツールを使用して、開発者のワークフローを簡素化し加速することに取り組んでいます。
NVIDIAの研究者は、物理的世界の上に空間的にオーバーレイされたロボットの手を見ながら、人間のデモンストレーションをキャプチャします。次に、NVIDIA Isaac Labに統合された生成シミュレーションフレームワークであるRobasを使用して、大量の環境とレイアウトを生成します。
Mimic Gen Nimを使用してデータサイズを増やし、元の少数のキャプチャに基づいて大規模な合成モーションデータセットを生成します。組み合わされた実際のデータと合成データセットでGrootモデルをNVIDIA DGX Cloudで訓練します。
次に、クラウド上のIsaac Simでソフトウェアインザループテストを実行し、Jetson Thorでハードウェアインザループ検証を行ってから、改良されたモデルを実際のロボットにデプロイします。
NVIDIA Osmoロボティクスクラウドコンピュートオーケストレーションサービスは、ワークフロー全体を通して分散リソース全体でジョブの割り当てとスケーリングを管理します。
これらのコンピューティングプラットフォームを合わせて、世界中の開発者に物理的AI駆動の人型ロボットの時代をもたらす力を与えています。
これはNVIDIAのビデオで、基本的にOmniverseを使用して人型ロボットをどのようにスケールアップするかについて説明しています。見たところ、これはかなり狂っています。Omniverseでデータを収集するための完全なシステムがセットアップされており、もちろんOmniverse Cloud、DGX Cloud、プロジェクトGrooがあります。
これらすべてのシステム、これらすべてのNIMsと自律的なものが進行中で、人型ロボットが確実に来ているという状況があります。以前のビデオを見ていれば、Figurの新しいロボットが数日後に来ることについて話しましたが、その機敏性、操作性、エンドツーエンドの能力がどれほど効果的かを実際に示すでしょう。
これは個人的に最も興奮している分野の1つです。なぜなら、実際の人型ロボットが実際の物理世界と対話するのを見ることは、人々が本当に「おそらくこのAIロボット工学は思っていたよりも早く来るかもしれない」と認識し始める場所だと思うからです。
さらにロボット工学のニュースでは、ドイツのロボット企業Nuraが、彼らの人型ロボット4 any1がタスクを実行する動画をリリースしました。このロボットのコンセプトは2022年に発表され、NVIDIAの人型ロボット開発者プログラムの早期アクセスに参加した最初のロボットの1つです。
そして、もし注目していれば、中国が信じられないほど多くのロボットを開発していることに気づいたでしょう。これはもちろん4 any1で、全く中国のロボットではなく、実際にドイツのものですが、私は人々が何台の人型ロボットプラットフォームが構築されているのか、そしてこの世界で以前にはなかったことを物理的な領域で行うロボットがどれだけ多くなるのかを理解できないと思います。
新しい人型ロボットプラットフォームを見るたびに、「ワオ、また1つ、また1つ」と思うのはかなり衝撃的です。それぞれが異なることができるのです。そして、私たちがどこに向かっているのか、未来は明らかだと思います。ただ、10年後か20年後かもしれませんが、これらのロボットが歩き回り、百万もの異なることを行っているとき、未来は完全に異なって見えるでしょう。
そして、さらにアンホブリングがありました。これはファインチューニングなしでLLMの結果を改善する簡単なトリックです。多くの人々はフューショットプロンプティングや思考の連鎖プロンプティングを知っていますが、ICML 2024でこれらの研究者によって新しいより良い方法が発表されました。それは「グラフのように計画する」と呼ばれています。彼らに説明させましょう。彼らの方が私よりも上手く説明できるでしょう。
基本的に、私たちの考えは、大規模言語モデルが非同期計画をどれだけうまく行えるかをベンチマーキングすることです。例えば、朝食を作りたいとして、コーヒーを入れ、卵を焼き、トーストを作りたいとします。おそらく最良の戦略は、これらの異なるステップを同時に行うことです。
コーヒーを入れたいとして、コーヒー豆を挽いてからコーヒーを買うなど、いくつかのサブタスクの依存関係が見えてきます。私たちの設定では、主に与えられた複雑なタスクに対して、いくつかのタスクを並列化し、いくつかのステップを順次実行する必要がある場合、これらの複雑なタスクに対して可能な限り短い時間を導き出すことに興味があります。
そこで私たちは、「グラフのように計画する」と呼ぶ方法を提案しました。これは基本的に、言語モデルに複雑な計画をグラフのように行わせ、まずグラフを生成してからタスクを解決するように指示することです。私たちの方法は、評価したすべてのモデルにわたってベースライン方法を実際に上回っており、また全ての機能にわたって顕著な改善があります。
一般的に、私たちのテストは本当に優れたオフザシェルフのプロンプトエンジニアリング方法です。トレーニングは全く必要なく、プロンプトエンジニアリングだけです。興味があれば、ぜひ試してみてください。
これが重要である理由は、現在のLLMが計画に苦労しているからです。計画は彼らが本当によく理解していないものの1つでした。モデルがはるかに良く計画を立てることができるようにすることは、これらのモデルの能力を向上させる新しい方法をまだ解き放っているという洞察です。
つまり、私たちが理解していない方法で、これらのモデルにはまだ大きな未開拓の潜在能力の貯蔵庫がある可能性が高いということです。基本的に、これらのモデルは当初、非同期計画に苦労していました。例えば、ケーキを焼く場合、オーブンを予熱し、初めはロボットがオーブンを予熱して10分待ってから生地を伸ばすなどの次の作業に移るでしょう。
しかし、人間ならオーブンを予熱し、生地を伸ばし、手を洗い、これをしてあれをするでしょう。私たちはほとんど当たり前のように、これらのことをすべて計画することができます。私たちはこれをほぼ本能的に知っていますが、これらのモデルがそれをどのように行うかを考えるとき、実際には... 論文からのスクリーンショットをお見せしましょう。
基本的に、ここでは逐次的な計画が見られます。これは各ステップにかかる時間を単純に足し合わせて65分かかります。そして、もちろん並列計画があり、「すべてを一度にできる」というものですが、これは真実ではありません。そして、これが非同期計画です。オーブンをセットし、これを伸ばし、そして最終的にあなたの物を手に入れます。
これらのシステムから新しい能力を解き放つ新しい方法をまだ見つけ出していることは魅力的だと思います。
マーク・ザッカーバーグも同様のことを述べています：
「より良くなるのは、あなたが言いたいことだけではありません。一般的に、クリエイターやビジネスも避けたいトピックがあると思います。このようなことすべてがより良くなることです。
プラトン的なバージョンは単なるテキストではありません。ほぼビデオチャットのようなものを、エージェントと持ちたいのです。これは私たちが行っているコーデックアバターの仕事との一種の交差点です。時間とともに、基本的にエージェントとほぼビデオチャットができるようになりたいのです。時間とともにそこに到達すると思います。
これらのものはそれほど遠くないと思いますが、フライホイールは本当に速く回転しています。それは興奮することです。構築すべき新しいものがたくさんあります。基盤モデルの進歩が今止まったとしても（そうはならないと思いますが）、業界には今まで構築されてきたすべてのものを最も効果的に使用する方法を基本的に理解するために、5年分の製品イノベーションがあると思います。
しかし、実際には基盤モデルや基礎研究の進歩が加速していると思います。それはかなり狂ったものです。」
そして、もちろんこれを見逃した場合、これはインターネットを破壊した友人製品です。これはAIウェアラブルです。皆さんにお見せしましょう。私はこれはかなりクールだと思います。少なくとも人々は外にいて、携帯電話を見下ろしていません。一部の人々はこれを嫌い、ディストピア的だと言いますが、これについてのあなたの考えも聞かせてください。

この記事が気に入ったらサポートをしてみませんか？