新しいAIエージェント、GPT-5はそんなに良くない?1,000億台のヒューマノイドロボット、エージェントなどが混在

2024年6月19日 19:32

今週の人工知能の世界では信じられないほどすごいことが起きていて、今日はその中でも見逃せないニュースをお伝えしていきます。時間を無駄にせずに、注目すべき興味深いニュースを見ていきましょう。
まず最初のAIやロボット関連のニュースで本当に面白いと思ったのは、スタンフォード大学からのものです。スタンフォード大学は以前、今年の初めにGoogle DeepMindと協力してモバイル・アロハというプロジェクトを行いました。これはロボットが自律的にタスクを実行する能力を実証した非常に興味深いプロジェクトでした。
今回、彼らは同じようなガイドラインに沿って、それとは異なる種類のプロジェクト「ヒューマン・プラス」を行っています。基本的にはヒューマノイドロボットを使って、人間の動作を模倣することで様々なタスクを実行させようとしているのです。これは、ロボットが人間の動きを観察・模倣し、そのデータを使って自律的にタスクを実行できるシステムを作ることを含んでいます。
人間の動作データは、高度なポーズ推定アルゴリズムを使ってリアルタイムで人間の体と手の動きを観察することで収集され、ロボットはシミュレーション環境で訓練されたポリシーを使ってこれらの動きを影のようになぞります。ここでは、RGBカメラが実際の人間の動作をリアルタイムで観察しているのがわかります。面白いことに、これを見ていると映画『Real Steel』を思い出させられますね。
一台のRGBカメラで人間の動きを追跡できるようになったら、このシーンのようにカメラがこの辺にあるのがわかりますが、実際にはかなり見づらいですね。彼らが使っているロボットのベースモデルは、実はユナイテッドロボティクス社のものなんです。このロボットが発表されたときのことを覚えていますが、これはユニタリーH1の初期モデルだと思います。このことは、ロボット工学の進歩のスピードが、大学がそれらを使って効果的かどうかを確認できるほど速いことを示しています。
彼らが実際に話していたことの1つは、このロボットには自由度があまりないということでした。つまり、彼らが使っているユニタリーロボットは、人間のような動きの範囲を持っていないのです。人間は肩の関節がとても柔軟で、様々な方向に回転させることができますが、このようなロボットはそういったことを目的として作られていないのです。そのため、多くのタスクを行うのはかなり難しいのですが、特定のタスクを訓練し、効果的に機能するポリシーを得ることは可能なのです。
彼らがここで行っているリアルタイムのテレオペレーションは、基本的にデータを収集するためのものです。なぜなら、他の方法でのテレオペレーションはかなり難しいからです。つまり、テレオペレーションデータを取得するための新しい方法を発明しているのです。ロボットの上部には、ロボットの目のように見えるものがありますが、これは単にデータを取得するために使用しているロボットなのです。
低レベルのポリシーは、多様な人間の活動を40時間分含む大規模な人間の動作データセットを使用して、強化学習によって訓練されています。実際のウェブサイトのGitHubにアクセスすると、学習した自律タスクがかなり印象的なものであることがわかります。一般の人から見ると、服を畳むのは間違いなく非常に難しいことだと思いますが、ここでの自律的なジャンプはかなり印象的だと思います。ロボットがジャンプ動作を行い、その結果として作用する力に安定化することができるのは、このロボットが非常に硬いことを考えると、かなり難しいことなのです。
そして、これらはすべて完全に自律的なものです。つまり、ロボットは事前に学習したポリシーに基づいて実行しているのであって、一切遠隔操作されていないのです。ここでは、倉庫での自律動作や、未知の物体に対する動作が効果的に行われているのがわかります。
このラボで行われているイノベーションのレベルは非常に興味深いものだと思います。常に新しい方法を考案し続けているチームが何を生み出すのか、いつも興味をそそられます。それは、彼らが絶え間なくイノベーションを続けているという素晴らしい実績を示しているからです。これは本当に面白いことです。
将来的には、別のハードウェアプラットフォームでの自律スキルを見てみたいですね。例えば、ユニットの最新ロボットで、新しいポリシーを訓練するのを見てみたいです。そのロボットはもっとスムーズで、自由度が高く、幅広いタスクをこなすことができるからです。
このように限られたプラットフォームでもこれほど効果的にジャンプなどができるのですから、研究に使える柔軟で安価な本当のロボットが手に入ったら、物事はとても素晴らしく、未来的になると思います。それは、これらのロボットを使って探求できる真に高度な研究レベルに到達するからです。
人間からの模倣による自律型ヒューマノイドシャドーイング、ヒューマン・プラスは魅力的だと思います。
次は、イーロン・マスクがテスラ・オプティマスについて語っているところを見ていきましょう。この話を次に選んだのは、先ほどヒューマノイドロボットがいくつかのタスクを自律的に行っている話から、スムーズに移行したかったからです。
ここでイーロン・マスクは、ヒューマノイドロボットの未来について語っています。1年間に1億台を生産し、地球上のあらゆるタスクをこなすことについてです。イーロン・マスクはこれまでにもかなり野心的なことを言ってきましたが、技術の進歩のスピードを考えると、1億台の生産は簡単ではないと思いますが、具現化したAGIのようなある一定のレベルのAIが達成されれば、今後10年、あるいは20年以内には全く現実離れしたものではないと思います。物事は劇的に変化すると思いますが、fascinating（魅力的）だと思うので、見てみましょう。
「オプティマスロボットというのは、基本的に人型ロボットのことで、あなたが望むことは何でもできるようになることを目的としています。あなたの仲間になり、家にいて、子供の面倒を見たり、先生になったりすることができます。工場での仕事もできるんです。つまり、超便利なヒューマノイドヘルパードロイドをどれくらい欲しいかというと、C-3POが欲しくない人はいないでしょう。C-3POとR2-D2のプラスアルファがあれば最高だと思います。世界中の誰もが1台は欲しがるようになると思います。文字通り、誰もが。そして、もちろん産業用ロボットもいて、ものを作ったりするんです。つまり、ヒューマノイドロボットと人間の比率は、少なくとも2対1くらいになるでしょう。何か1対1くらいにはなるでしょうね。つまり、100億台くらいのヒューマノイドロボットが作られるということです。200億台か300億台くらいかもしれません。そうすると、年間の生産台数は最終的には10億台くらいになるんじゃないかな。実際にそうなると思います。テスラがそのうちの10％のシェアを持っているとして、10％以上になるかもしれませんが、年間1億台のオプティマスユニットを作ることになります。ちなみに、自動車業界は年間約1億台の車両を生産しているので、少なくとも桁は同じくらいですね。大量生産になれば、コストは1台あたり1万ドルくらいになるんじゃないかな。車よりも小さいし、安くなるはずです。大量生産になれば2万ドルくらいで売れるでしょう。テスラは年間約1兆ドルの利益を上げることになります。1兆ドルの利益というのは信じられないことですが、まあ、どうなるか見てみないとわかりませんね。」
将来のことで、怒れるコメンテーターが言うような根拠のない主張だと言われるようなことが多いですが、実際に将来を見据えて考えてみると、本当のAGIが実現して、実際に物理的な体を持ち、実際に物事ができるようになったら、どれだけ価値があるでしょうか。車よりも価値があるでしょうか。正直なところ、そのレベルになれば、社会がそこまで進歩していれば、車よりも価値があると思います。2万ドルで自分専用の何でもできる人間を手に入れられるとしたら、それは家を掃除してくれたり、あなたより賢かったりするわけですから。そういうものが周りにあるのは面白いことだと思います。専門的なバージョンもあるでしょうから、ガールフレンドロボットとかハズバンドロボットとかね。でも、社会の進む方向を考えると、主にB2Bで使われることになると思います。テスラが工場で使ったり、政府のプロジェクトでもっとデータセンターを建設したり、ダイソン球を建設したりするために導入されるでしょう。クレイジーな話にはなりたくないですが、要は、テスラのヒューマノイドロボットが平均的な人間と同じくらい、あるいは手先の器用さが20％良くなったとしたら、社会がどれだけ早く進化するかを考えなければなりません。休憩も必要なく、病気にもならず、24時間働く従業員を基本的に印刷できるようになるのですから。さらに、その従業員はもっと従業員を作ることもできるのです。ですから、この規模が今後10年、20年でどうなるかを考え始めると、本当に crazy なことになります。」
次に、元メタの研究者たちが新しいエージェントをリリースしたことに驚きました。これはかなり印象的だったので、デモをお見せしてから私の意見を述べたいと思います。これは驚きでしたが、他の企業がOpenAIに追いつき始め、市場シェアを奪い始めていることを示していると思います。それほど反響がなかったので大したことではありませんが、言いたいのは、OpenAIがまず実演すると思っていたことを見せてくれたということです。とにかく、Z Labsがリリースしたチェイスを見てみましょう。
「こんにちは、Z LabsのCEOのフレデリックです。AIの同僚、チェイスを紹介します。1つの指示だけで、チェイスはあなたのためにあらゆるタスクを処理できます。例えば、チェイスは旅行の計画を立てることができます。必要な詳細をすべて尋ね、予約をすべて行います。これは、自律型ウェブエージェントであるワンモデルのおかげで可能になりました。チェイスは、人間と同じようにブラウザ内で操作やアクションを実行できます。最初のいくつかのステップをライブビューで見てみましょう。チェイスはGoogleから始まり、Airbnbのウェブサイトに行き、すべての詳細を入力し、検索をクリックしています。
チェイスは単なるアシスタントではありません。役割全体を引き受けることができるのです。眠ることのないリクルーターを想像してみてください。チェイスは候補者を見つけ、面接のスケジュールを立て、採用プロセスを効率的に管理します。チェイスを使っているうちに、さらに一歩先に進めることに気づきました。そこで、チェイスにシンプルなプロンプトで独自の企業を作るように頼んだところ、計画を立て、ビジネスを登録し、最初の顧客を見つけ、最初の売上を上げたのです。
チェイスにはまだ限界があります。複雑なタスクには苦労することがあり、現在の閲覧速度も少し遅いです。より速く、より信頼性の高いものにするために一生懸命取り組んでいます。チェイスがあなたの生活にどのように役立つのか、楽しみにしています。」
驚くべきことに、このビデオの主張が本当だとしたら、かなりすごいことです。エージェントがLLCを作成できたと言っていますからね。計画を立てている様子がわかります。スタートアップがまだあまり発表していない理由は、エージェントがマルチステップの推論と計画に苦労しているからだと思います。もしGPT-5のようなモデルでそれが解決できれば、ここで紹介されているようなことがもっとすごいことになると思います。
かなり興味深いことができるのがわかりますね。最高の登録エージェントサービスがここにあって、登録エージェントがこれこれこれ、LLCの登録エージェントを任命するとあります。そして、これらすべてのことができたのがわかります。つまり、これが実際に機能するかどうか興味深いですね。彼らのウェブページにアクセスすれば、ウェイトリストに参加できますが、近いうちにオープンになるとは思えません。最近はたくさんのAIエージェントを見てきましたが、新しいアーキテクチャを発明したり、新しいモデルを本当にトレーニングしたり、本当に革新的なことをしない限り、物事はまだそれほどすごいことにはならないと思います。でも、来年の今頃には、かなりのことができる本当に優れたエージェントができているんじゃないでしょうか。今日のLLMテクノロジーを取り巻くフレームワークでさえ、GPT-4の基本レベルからの著しい飛躍を提供していることがわかっているからです。次に登場するモデルが何であれ、そのモデルがどこに位置づけられるのか興味深いですね。
次に驚きだったのは、よく考えてみれば驚くことではありませんでした。最近、OpenAIの元従業員であるLeopold Ashbrennerが、Dual Crash Patel Podcastのインタビューで、AGIとASIの未来について語り、おそらく2027年までにAGIに到達するだろうと述べていました。彼は、ラボが国有化されることになると実際に言っていたのです。つまり、かなりの政府の監視が行われるようになるということです。
ここでは、以前はアメリカ政府と非常に強いつながりを持っていた人物が、今ではOpenAIで働いているのがわかります。これは重要な情報です。なぜなら、Leopold Ashbrennerのインタビューや人工知能の未来に関する文書の予測の一部が、リリースからわずか1週間で既に現実のものとなっているからです。私を含む何人かのコミュニティメンバーが常に主張してきたことでもあります。これらのシステムがどこに向かうのかという将来を考えると、これらのシステムは、それを保有する者に力のバランスをシフトさせることになるからです。そして、これらのシステムを実際に管理し、国家安全保障や国民に脅威を与えないようにするために必要なことを設定する際の注目すべき基準となるのです。
これらの主張についてTwitterで議論している人はたくさんいます。Kim.comは、「OpenAIは、NSAで大量監視を担当していた男を雇いました。彼は、アメリカ人に対するエリート的な合法的な大量スパイ活動を、イギリスのスパイ機関に外注し、アメリカの法律を回避していました。彼は、イギリスの機関に無制限のアメリカのネットワークへのスパイ活動を許可しました。これは、OpenAIについて知っておくべきことすべてを物語っています」と述べています。これは、NSAが基本的にアメリカ人の電話での会話を盗聴していたことが発覚した際の大きな騒動のことを指しています。そのことについてはあまり詳しく説明したくありませんが、重要なポイントです。
全体的に見ると、これは驚くことではありません。先ほども言ったように、2025年までには、将来のモデルに関するリークを得ることはないと思います。そう思えないかもしれませんが、これらのラボが国有化され、これらのことの真の規模が認識されるころには、これはマンハッタン計画のようなものになると思います。つまり、大部分の情報は厳重に管理され、セキュリティクリアランスが一定のレベルを超えていない限り、次のレベルのシステムが何をしているのかを知ることはできなくなるでしょう。そして、おそらく今でもOpenAIでは、私たちが知らないようなマンハッタン計画が行われているのかもしれません。マンハッタン計画というのは、最初の核爆弾を開発した秘密の施設のことです。他国に先駆けてそれを手に入れる必要があったので、秘密裏に行わなければならなかったのです。
現在のタイムラインを考えると、他国よりも早くAGIを作るために、ロスアラモスではないかもしれませんが、アメリカのどこかで何らかの努力が行われているとしても不思議ではありません。OpenHinaを見た人なら、このことについて知っているはずです。本当にそうだと思います。なぜなら、OpenAIで働いている人たちも、ASIに最初に到達した者が世界を支配することになると主張しているからです。このような傾向は今後も続くでしょう。
ここで少し混乱することがありました。これはMMAのmurorati氏のクリップからのものですが、彼女がこのクリップで言ったことは多くの人を混乱させました。なぜなら、彼女は、ラボの中にあるモデルは、一般に公開されているものからそれほど先行していないと言ったからです。でも、彼女が言っていることを聞いてみてください。一度再生してから、もう一度再生しますので。多くの人がこのクリップを解釈する際に間違いがあるかもしれないと思うからです。
「ラボの中では、これらの高性能なモデルを持っていて、それらは無料で一般の人がアクセスできるものからそれほど先行していないのです。これは、歴史的に見てきたものとは全く異なる軌道で技術を世界にもたらすことになります。人々を巻き込み、能力とリスクを直感的に理解させ、人々が進歩したAIを世界にもたらす準備ができるようにするという、大きなチャンスなのです。もちろん、機会は huge です。」
このクリップは、多くの人を当惑させています。「ちょっと待って、OpenAIは他のみんなよりもずっと先を行っていて、多くのリークや、OpenAIが2022年にgbd4を持っていたことを考えると、2024年には本当に高度なモデルを持っているはずだと思っていたのに」と。彼女が話し間違えたのかもしれませんし、これは本当ではないのかもしれません。でも、ここで起こっていることは2つのうちどちらかだと思います。彼女が見たことについて真実を語ったのか、あるいは、単に過剰な宣伝が行われている可能性があるのです。
OpenAIに関しては、過去12ヶ月間の失態から、多くの場合、この企業で何が起こっているのかを誰も知らないということがわかりました。信じられないことですが、CEOとCTOの間でも多くのことが起こっています。サム・アルトマンが解雇されたときも、多くの人はそれが起こるとは予想していませんでした。もちろん、別の理事会の問題があるのかもしれませんが、このような孤立した出来事がたくさんあったのです。
たとえこの発言が本当だとしても、彼女がその時点で考えていなかったような超高度なモデルに取り組んでいる可能性が高いと思います。彼女が完全に間違っていると言っているわけではありませんが、マイクロソフトのCTOが文字通り、GPT-5は博士研究者のレベルで、博士号を取得できるレベルだと述べていたこと、サム・アルトマンがGPT-4は「バカ」だと言っていたこと、他の多くのOpenAIの従業員がGPT-5が著しい飛躍になると示唆していたこと、サム・アルトマンが飛躍の規模はかなり似ていると述べていたことを考えると、今はそれほど進歩していないと言うのは、かなり矛盾していると思います。
唯一言えることは、GPT-5や次のレベルのシステムがリリースされたら、これらのシステムが何ができるのか、あるいは私たちがプラトーに達したのかどうかを本当に知ることができるということです。今のところ、この発言は確かに混乱を招くものですが、OpenAIが本当に何をしているのかについて、私が見てきた多くの情報源から得られた全体的なテーマではないので、あまり注目していません。この発言が本当なのかどうか、興味深いところです。
次に本当に興味深いことがありました。これは、Leopold Ashbrennerへのもう一つの言及ですが、大規模言語モデルの上に適用できるスキャフォールディングやその他の技術が、モデルの能力を向上させるために効果的に使用できることを示しています。
ここでは、「エージェントのミクスチャ」というアプローチを導入し、複数のLLMの集合的な強みを活用して最先端の品質を向上させていることがわかります。また、「Mixture of the Arts」とともにリファレンス実装を提供しており、いくつかのオープンソースのLLMエージェントを活用して、alpaca EV valve 2.0で65.1%のスコアを達成し、以前のリーダーであったGPT-4を上回っています。
つまり、彼らはオープンソースのモデルを使って、このかなり難しいベンチマークでGPT-40を上回ったのです。これは本当にすごいことです。彼らが使ったのはGemini ClaudeやGPT-4のようなモデルではなく、GPT-4のレベルには全く及ばないオープンソースのモデルでした。では、どのようにしてこれを実現したのでしょうか。
基本的には、エージェントのミクスチャを使用しました。これは次のようなものだと考えることができます。これについては後ほど詳しく説明しますが、単一のモデルと他の種類のモデルとの比較は非常に興味深いものです。ここでわかるのは、黄色の単一のモデルが青よりもかなり劣っているということです。青は他のモデルからの応答を表しています。つまり、全体的に、これらのモデルを一緒に組み合わせることで、応答を改善することができたのです。
これらのモデルが実際に機能する大きなギャップがあることがわかります。このようなことは非常に効果的ですが、一体どのようにしてこれが機能したのでしょうか。基本的には、これらのロボットを層に編成することにしたのです。
ここでは、レイヤー1、レイヤー2、レイヤー3、レイヤー4があります。基本的に、これらのLLMをこれらの領域に編成しているのです。ここにオープンソースのAIが3つあり、出力がまた同じ層にフィードバックされ、それを3回行って、最終的な出力を得ています。プロンプトがあって、「空が青いのはなぜ？」と尋ねると、3つのLLMがすべて答えに貢献し、それがシンセサイザーに渡されるのです。
シンセサイザーやアグリゲーターは、提案された異なる応答を1つの高品質な応答にまとめるモデルのことです。つまり、それらすべてを組み合わせて、より多くの情報を与えるための1つのAIシステムがあるだけです。そして、その情報の1つの層が次のAIの層に渡され、2番目の層は最初の層からのすべての答えを見て、それぞれの最良の部分を組み合わせることで、より良い答えを出そうとします。
そして、これを何度も繰り返し、オープンソースのモデルでGPT-40を文字通り打ち負かすことができたのです。これはかなりすごいことだと思います。おそらくこれについての動画がいくつか出てくると思いますし、私自身もこれについてさらに動画を作るかもしれません。これはもう少し注目に値すると思うからです。でも、この動画に入れたかったのは、かなりすごいことだったからです。テスティング1212、これは仮想カメラ2でマイクの音がどのように聞こえるかを確認するためのものです。
AI革命に真剣に取り組んでいる方は、ぜひ私のポストAI準備コミュニティをチェックしてみてください。現在、私のポストAIフレームワーク、AIでお金を稼ぐための個人的な戦略、そして実際に使いやすいエージェントベースのフレームワークの使い方などの独占的なチュートリアルにアクセスできます。もちろん、経済的に無価値にならないようにするAGI対策投資についても説明します。これが皆さんに役立つと思われる方は、説明欄のリンクをチェックするのを忘れないでください。
それでは、今日の動画が楽しめたことを願っています。

この記事が気に入ったらサポートをしてみませんか？