見出し画像

OpenAIがついにGPT-5に肉体を与える(Figure 02の画期的進歩)

OpenAIの人工汎用知能(AGI)を搭載した人型ロボットがついに登場しました。GPT-5が人間のように話し、歩き、感じることを可能にするプラットフォームがついに現れたのです。このプラットフォーム、この驚異的な人型ロボットのデモンストレーションがついに公開されました。Figureの人型ロボットシリーズの第2世代は、皆さんを本当に驚かせることでしょう。この短いデモをご覧いただいた後、知っておくべき重要な点や詳細について説明します。ロボット工学とAIの次の時代は、絶対に驚くべきものになるでしょう。
[音楽]
今ご覧いただいたのが、その驚異的なデモでした。まず最初に、Figureチームのこの驚くべき技術的成果に敬意を表したいと思います。ご存じない方もいるかもしれませんが、これは現在世界最先端の人型ロボットです。彼らは様々な提供者と提携し、最先端の技術を使用してこのロボットが最高水準であることを確認しています。
彼らが言及していた機能の1つに、音声から音声への推論がありました。他のロボットは様々な異なる方法を使用していますが、Figure 2は音声からテキストへの変換を経て推論を行うことを選択しました。現在ご覧いただいているのは、このモデルが決定を選択できるようにするオンボードモデルです。ここで分かるように、誰かが「何か食べるものをもらえますか」と言うと、OpenAIのモデル(どのようなモデルかは実際にはわかりません)が作動します。
はっきりと分かっていないことの1つは、Figure 2がどのモデルを使用しているかということです。CEOは実際にどのモデルかを明言していません。ロボット工学に特化した小さな言語モデルか、おそらくGPT-4だと私は考えています。後者はレイテンシーが非常に低いことを考えると可能性があります。どのようなモデルであれ、おそらく交換可能なものだと推測します。
ここで見られるのは、この音声からテキストへの変換から、このモデルが行動を選択するということです。このロボットが選択できる様々な方針があるかもしれません。ここにあるのは、選択可能なニューラルネットワークの方針です。そこから200Hzのアクションに移り、全身コントローラーと1kHzの関節トルクを使用してリンゴを拾い上げます。最終的に「わかりました、こちらがリンゴです」と言うところまで到達します。以前のデモで見たことを覚えているでしょう。
要するに、ここにあるこのシステム全体は、非常に迅速で効果的なシステムで、FigureロボットがAIを具現化することを可能にしています。そして将来、AGIが到来したとき、間違いなくAGIを具現化することになるでしょう。
この発表や進歩が人々が考えているよりもはるかに大きいと私が信じる理由の1つは、まず第一に、このロボットを見てみると、18ヶ月以内に設計されたということです。これらの製品の開発にどれだけの時間と研究開発が必要かを考えると、驚くべき技術的成果です。ロボット工学は非常に難しいため、OpenAIは当初この部門から撤退しました。「これは難しすぎる、ソフトウェアに集中する必要がある」と考えたのです。OpenAIが十分に賢くないわけではありません。ただ、このように見栄えが良く、パフォーマンスの高いロボットを実際に動作するものにするには、多くの時間がかかるのです。ロボット工学は非常に難しく、それを強調しすぎることはありません。
これが10年の研究開発の成果ではないことを理解することが重要です。この会社は2022年後半に設立されたばかりで、すでに第2世代に到達し、世界最強のロボットとなっています。この製品に投入されている資金の軌跡と量を見ると、これがどれほど進化するかが分かります。すでに第2世代でこれほど優れているのですから、ブレークスルーは続き、この分野でさらに多くの開発が行われるでしょう。それらのブレークスルーは、一種のフライホイールのように続いていくでしょう。
ここで非常に重要だと思うことがあります。それは、状況が本当にクレイジーになろうとしている理由です。それはこのデータのフライホイールについてです。基本的に、ここにあるのはロボット群の状況です。例えば、ロボット群は当然すべてのFigureロボットです。動画の最後で工場内を歩き回っているロボットを見ましたが、反復可能な自律的なタスクを何時間も行うことができます。また、自己修正も可能です。
このロボット群から得られるデータについて、1日あたりテラバイト単位のデータが得られる状況にあります。ここで強調されているように、1日あたりテラバイトのデータです。これが重要な理由は、Figure 2のようなロボットが非常に効果的に機能するために大量のデータが必要だからです。
人型ロボット工学の2つの最大の問題点は、まず第一にロボットのコストです。決して安くありません。スーパーカー並みの価格がします。第二に、これらのロボットを効果的に訓練するのに十分なデータがないということです。これが2つの主な理由です。
1日あたりテラバイトのデータを取得できれば、そのデータを使用することができます。このデータは、視覚カメラを通じてオンボードで収集されます。すべてのアクションを記録し、データを収集する方法は百万通りあります。Figureがどのように行っているかは分かりませんが、このデータが収集され、トレーニングデータに投入され、最新のニューラルネットワークに供給されます。そして、そのデータは再びこのロボット群に戻されます。
これにより、私たちは毎回の反復でより良く、より良く、さらに良くなっていく状況にあります。これらのロボットの洗練度が徐々に向上していくことになります。だからこそ、今、状況が少し激しくなろうとしていると言っているのです。これらのロボットはすでにかなり効果的に機能しています。これらの人型ロボットを拡張したとき、どれだけのデータを収集できるか、そして長期的にこれらのロボットがどれほど効果的になるかを考えてみてください。これらのロボットがそこに到達する様子を見るのは非常に興味深いでしょう。
この動画では触れられていなかったいくつかの重要な詳細がありましたが、創設者がTwitterで実際に話していました。彼が話したことの1つは、Figure 2がこのオンボードのビジョン言語モデルを持っているということです。これにより、意味的な接地と、ロボットのカメラからの迅速な常識的な視覚的推論が可能になります。現在、私たちが持っているビジョン言語モデルでさえ、音声から音声への推論を可能にしますが、それほど優れていません。時々かなり間違えることがあります。
Andrej Karpathyが Twitter で言及していたことがありましたが、本質的には、これらのロボットは多くの特定のケースで優れていますが、他のケースではそれほど優れていないということでした。ポイントは、ロボットがうまく機能しない特定のニッチなケースがあるということです。視覚はロボットがまあまあこなせる領域ですが、画像に何があるかを見つけ出し、それを接地するためにはまだ多くの改善が必要です。人間は自分の視覚が良くないと思うかもしれませんが、ロボットの視覚よりもはるかに効果的なのです。これは継続的な開発が必要な分野になるでしょう。
興味深いのは、彼らがバッテリーについても言及していたことです。バッテリーはロボットの胴体に2.2kWhのバッテリーパックを搭載し、Figure 1よりも50%多くのエネルギーを提供してロボットの稼働時間を最大化します。1日20時間の有用な作業を達成できることを期待しています。これは考えてみると信じられないことです。ロボットが1日20時間働くことを想像してみてください。人間はそんなに長く働くことはできません。充電にどれくらい時間がかかるかわかりませんが、これらのプラットフォームの一部では単にバッテリーを交換できることを考えると、これらのロボットが1日20時間働くのを見るのは絶対に驚くべきことです。本当に驚くべきことです。
彼らが話した最もクールなことの1つは、もちろんカメラがAI駆動システムを通じて世界を理解し、認識できるということです。頭部、胴体、背中に6つのオンボードRGBカメラがあります。未来を実際に見始めると、これらのロボットが信じられないほどの視覚を持つことがわかります。人間のように目にだけあるのではなく、胴体や背中にもあり、人間にはないかもしれない空間認識を持つことができます。あらゆる方向から見ることができるからです。
驚くべきことに、彼らはTesla Botよりもはるかに優れた手を作ることに成功しました。これは第4世代の手で、16自由度を持っています。これが非常に驚くべきことである理由を皆さんにお見せしましょう。TwitterでTesla Botと比較した人がいました。
ここでTwitterに投稿されたこの動画は、良い意図で投稿されたものではありませんでした。誰かがFigure 2を批判するために投稿したものです。日付を記載し、基本的に「見てください、彼らがこれを達成するのにどれだけ時間がかかったか」と言っています。ここで見られるように、これらの手は両方とも非常に効果的ですが、彼らは基本的に「ハハ、Teslaは6〜7ヶ月早くこれを達成しました。Figure 2は今やっとこれをやっています」と言っています。
しかし、私はこの会社について、少なくとも今は競争相手がいるということだと言いたいです。消費者である私たちはこの恩恵を受けることになります。なぜなら、両社とも自社のボットをより良く、そしてより安くするよう動機付けられているからです。いずれにせよ、ここでは多くの開発が行われており、Figure 2は間違いなくTeslaとElon Muskに圧力をかけ、実際に競争力のあるものをリリースするよう促しています。Elon Musk自身がツイートで、この会社のCEOと創設者に「かかってこい」と言ったほどです。そこには少し競争関係があります。そしてElon Muskは過小評価されるべき人物ではないことを私たちは知っています。
全体として、このロボットは驚くべきものになると思います。近い将来、高度な推論能力を持つフロンティアモデルが登場し、視覚においても絶対に信じられないようなブレークスルーがあるでしょう。そして希望的には、そのデータフライホイールを稼働させることができるでしょう。もちろん、現在はまだNVIDIAのシミュレーションに問題があります。NVIDIAが悪いと言っているわけではありません。ただ、データの問題を解決できれば、これらのロボットは非常に迅速に効果的になるだろうと言っているのです。
これらのことが起こるのを待ち望んでいます。これは、私たちが生きることになる未来の世界の早期の一瞥です。ロボットが工場内を歩き回り、タスクを実行し、真に経済を拡大することができる世界です。このロボットについてのあなたの考えを聞かせてください。これらのことについてどう思いますか。次の動画でお会いしましょう。


この記事が気に入ったらサポートをしてみませんか?