10億台のヒューマノイドロボットとOpenAIの『混乱』

2024年8月7日 21:22

本日、AI とロボット工学の世界で大きなニュースがありました。まず第一に、Figure O2 の発表です。これは、ブラッド・アトーの会社 Figure AI が新しく改良したバージョンのヒューマノイドロボットです。これは、私たちがしばらく前から話してきたことを証明しています。つまり、ロボット工学と大規模言語モデルが交差する場所についてです。特に視覚的推論が可能な大規模言語モデルの背後にあるニューラルネットワークが、ヒューマノイドロボット工学とどのように組み合わさるか、そしてその交差点にある肯定的で、場合によっては少し奇妙なことについてです。すぐにそのことについて話しますが、AI が支配的になるにつれて、これをあなたのマントラにしてください。「ロボットに仕事をさせよう」。AI ニュースの最新情報を得るために購読してください。
Figure のロボット会社は、ある意味で OpenAI によってバックアップされていることを覚えておいてください。そこには関係があります。GPT-4 システムか、OpenAI が使用している GPT システムの何らかのバージョンがそのロボットに搭載されています。まだ 2 つの別々の会社ですが、強力な協力関係があります。このロボットが出てくるのと同時に、OpenAI の上級リーダーシップの多くが、私が聞いたところでは「崩壊」や「大量退職」と表現されていますが、それはドラマティックすぎるかもしれません。しかし、確かに何かが起こっています。多くの人が退職したり、休暇を取ったりしています。
もちろん、グレッグ・ブロックマンがいます。彼はほぼ最初から、つまりイーロンとサム・アルトマンと一緒にいた最初の人たちの一人だと思います。他のみんな、例えばイリヤ・サツケヴァーは後から来たと思います。タイムラインが正しければですが。彼はサバティカルを取っていますが、大したことではありません。しかし、彼だけではありません。これらすべてが同時に起こっています。
一般的に、あなたが会社の社長で、他のリーダーシップの一部が何らかの理由で退職し、あなたも少し休暇を取る予定なら、おそらくその特定の瞬間には休暇を取らないでしょう。なぜなら、もし全員が同時に建物から飛び出したら、私たち外部の人間は「うーん、それは奇妙だ」と考えてしまうからです。
この期間中、イリヤ・サツケビッチが自身の会社を立ち上げていることを覚えておいてください。彼が言うように、ASI への一本道、つまり回り道や寄り道なしに人工超知能に到達することを目指す会社です。彼らはただそれに向かっています。それが会社のミッションです。
アンドレイ・カーパシーも自身の会社を立ち上げています。AI を教えるための会社で、Eureka と呼んでいます。非常に有望で良さそうです。多くの教材に今アクセスできます。GitHub にあり、コンテンツの多くが無料になりそうです。おそらくすべてかもしれません。まだ確実ではありませんが、確かに非常にポジティブなことです。しかし、彼は自分のことをしています。
なぜみんなが退職しているのかという疑問が生じます。何が起こっているのか見てみましょう。今日の AI ニュースでさらに詳しく見ていきます。私の名前は Wes Roth です。楽しんでいただけたら、親指ボタンを押して、必ず購読してください。では始めましょう。
さて、Figure 1 についてです。私たちはこれをかなり追跡してきました。少なくとも Figure AI 社については非常に興味深い会社です。多くの素晴らしいブレークスルーがありました。彼らはロボット工学の側面だけでも非常にうまくいっていました。例えば、動き、手、体、歩き回ることなどです。そして、OpenAI とパートナーシップを組んだときに、いわば火に油を注ぐようなものだったようです。なぜなら、GPT-4 モデルのビジョン、つまり初期に彼らが使用していたと思われる何らかの微調整されたバージョンを使用したときに、物事がはるかに興味深くなったからです。
私たちは、ロボットに近づいて話しかけるデモを見ました。「リンゴを取って」とか「これをして」とか「あれをして」と言うと、ロボットはあなたの声を聞き、話された言葉を理解し、あなたが何をしようとしているのかを推論することができました。「リンゴを取って」と具体的に指定する必要さえありません。「お腹が空いた。テーブルの上にある食べられそうなものは何？」というように言えば、ロボットは見回して「彼はプラスチックの恐竜を食べるわけではない、ノートを食べるわけでもない。おっ、リンゴがある。それがいいかもしれない」と考えます。そして、リンゴを拾って、お腹が空いていると言った人に渡します。
Google の RT-2 ロボットでも同様のものを見ました。これも独自のバージョンの大規模言語モデルを持っています。彼らはそれを Vision Action Language Model と呼んでいます。実際には、順番を間違えてしまいました。Vision Language Action Model が正しい順序です。前回はその順序を正しく言えませんでしたが、基本的には視覚を持つ大規模言語モデルがあります。これは環境を見て、それについて推論することができます。また、アクションモデルがあり、これは基本的に手やクローなどの動きをトークンに変換します。
例えば、ChatGPT がクエリに答えるためにテキストを出力できるのと同じように、これは非常に似ています。モデルがチップの袋を拾いたい場合、そのリクエストを翻訳し、チップの袋を取るために手やクローの動きのシーケンスを出力します。ここにあるこの座標は、実際にはどんなロボットでも実行できるロボットのアクションです。単に角度と動きなどだからです。
これが実際に動作している様子です。ここで見られるように、バナナを拾って動かすことができます。また、例えば「バナナを 3 に移動」することもできます。つまり、「3」が何を意味するかを理解しているので、それをどうすればいいか推論できます。また、印象的なのはイチゴのような物を拾うこともできることです。私が見た中で最も興味深いものの一つは、チップの袋です。なぜなら、チップの袋のことを考えると、それを掴むとある程度圧縮されるからです。つまり、ちょうど適切な圧力を加える必要があります。圧力が弱すぎると拾えず、強すぎると袋が破裂してしまいます。抵抗を感じるまで少し絞って、それから拾う必要があります。
私たちがそれをするとき、考えもせずにただ掴むだけです。しかし、ロボットにとっては、それをどのように正確に行うかを説明するのは非常に難しいと思います。スクリプトを書かなければならないとしたら。そして、Google DeepMind で同じことが見られ、OpenAI と Figure でも同じことが見られています。基本的に、彼らはロボットの中に大規模言語モデルを組み合わせて入れています。これは単純化された考え方です。なぜなら、それ以上のものだからです。必ずしも大規模言語モデルではありません。例えば、Google DeepMind が呼ぶ Vision Language Action Model のようなものですが、GPT-4 のような何かのニューラルネットがロボットを操縦したり、どんなロボット的なものでも操縦するというアイデアが、本当に次のフロンティアのように見えます。そして、多くの会社がその方向に動いているのを見ています。
ここで、Figure AI の創設者であるブレット・アトックが言っています。FO2、この新しいロボットモデルは、以下を達成するために根本的に再設計されたと言っています。6 台のカメラを搭載し、バッテリー寿命が 50% 増加し、オンボードの VM（Vision Language Model）を搭載しています。再び、みんなが少し違う呼び方をしていますが、核心的な概念は同じです。ロボットを操縦する言語モデルプラスなのです。
CPU/GPU が 3 倍、第 4 世代のハンド、統合配線、外骨格構造、そしてスピーチからスピーチへの推論があります。これは私にとって、これが古い GPT-4 ではないことを意味しているように思えます。これはGPT-4O、つまりオムニモデルのような何かを示唆しているように思えます。なぜなら、GPT-4 の時代には、例えば音声アシスタントがあった場合、それは本当の意味でスピーチからスピーチへとはならなかったでしょう。定義の仕方によりますが、ネイティブにスピーチからスピーチへとはならなかったでしょう。
なぜなら、GPT-4 に何かを言うと、それは Whisper（OpenAI の音声からテキストへのモデル）のようなもので転写されるからです。それがテキストになり、そのテキストが GPT-4 に入力され、GPT-4 がテキストで答え、そのテキストが別の AI モデルによって声に出して読まれるのです。しかし、それはネイティブにスピーチからスピーチへとはならないでしょう。いわば、翻訳から翻訳へ、翻訳へと変換されるのです。スピーチが入力されてスピーチが出力されますが、その間に多くのナンセンスが起こっていると私はよく言います。
これは、おそらく最新の GPT-4 オムニモデル、GPT-4O が使用されていることを示唆しているように思えます。うまくいけばですが、これは興味深いです。彼は続けて言っています。「スピーチからスピーチへの推論。このロボットは人間とスピーチからスピーチへの会話が可能です。オンボードのマイクとスピーカーが、OpenAI とのパートナーシップで訓練されたカスタム AI モデルに接続されています。」
これはカスタムモデルで、おそらくオムニモデルのバージョンか、微調整か、チェックポイントでしょう。しかし、ここで興味深いのは、この画像で彼らが文字通り「入力は音声からテキストへ」と言っていることです。つまり、ネイティブにスピーチからスピーチへ、あるいはそう呼びたい方法ではないようです。これは音声からテキストへです。「何か食べられるものはありますか？」と言うと、それがテキストに変換されます。そのテキストが OpenAI モデルに入力されます。おそらく GPT-4 のバージョンでしょう。そのモデルが、見ているものから常識的な推論を行います。「ああ、リンゴがある」というように。そして、テキストから音声への変換を行います。出力はテキストで、それが音声に、スピーチに変換されるのです。そしてロボットは「はい、こちらにリンゴがあります」と言います。
基本的に、新しい ChatGPT の高度な音声モードがロールアウトされるとき、それはこのロボットの音声モードよりもはるかに高度になるように思えます。それについて考えるのは興味深いですね。
次に、配線などについてもう少し話します。これは非常に興味深いです。なぜなら、ここでもイーロン・マスクのインタビューでも、彼らは直面している難しい問題の一部、このようなものを生産するために取り組まなければならないエンジニアリングの問題について説明しています。それは非常に興味深いです。
例えば、イーロンは手についてかなり詳しく説明しました。実際、彼は手を非常に興味深い方法で説明しました。彼は「肉の糸操り人形のようだ」と言いました。または実際には「骨格の糸操り人形のようだ」と言ったと思います。基本的に、指と手のすべての動きについて考えると、その多くは前腕の腱によって制御されています。
時々、私は些細な詳細を間違えることがあります。そして、あなたがたの中には、800ポンドのスモーレスラーのように私にコメント欄で飛びかかってくるのが大好きな人たちがいます。「実際は…」と。それは全く問題ありません。それがあなたの好きなことだと分かっています。ですので、もし私が些細な間違いをしたら、どうぞ訂正してください。私はできる限りそれから学びます。
しかし、私の理解が正しければ、指の動きや様々な位置を制御するこれらの腱の多くは、ここにある小さな開口部を通っています。これが手根管です。だからこそ、このような姿勢で長時間タイプすると手が痛くなり始めるのです。その開口部が開いている必要があるからです。少なくともそれが私の理解です。私は医者ではありませんし、インターネット上で医者のふりをしているわけでもありません。
しかし、それについて考えてみてください。自分でロボットの手を設計するとしたら、これは複雑すぎると思うかもしれません。もっと簡単な方法があるはずだと。すべてのアクチュエーター、すべての動きとモーターを手自体に入れてしまえばいいと。イーロンは、彼らはそれを試してみたが、それによって手が滑稽なほど巨大になってしまい、また十分な動きの自由度がなく、柔軟性や敏捷性がなく、器用さも足りなかったと言いました。すべてを手の中に入れてしまうと。
そこで、彼らは自然の設計をある程度コピーし、骨格の糸操り人形を作り出したのだと思います。ブレットも同様のことについて話しています。ヒューマノイドロボットに特有の多くの他のエンジニアリング問題があるという意味で。例えば、配線です。
私の家族の一人が電動芝刈り機を購入しました。とてもクールなものでした。バッテリーを差し込んで充電し、準備ができたら使えます。非常に安全になるように設計されています。例えば、ここやここ、ここにいくつかの安全スイッチがあり、ひどい怪我をしたり、子供がいる場合は彼らがトラブルに巻き込まれたりするのを防ぐためのものです。なぜなら、かなり鋭い刃があり、注意が必要だからです。
基本的に、この部分が正しい位置にあり、ロックが解除され、この部分が伸びていて、さらにここに小さな安全装置があり、それを押し下げる必要があります。押し下げないと芝刈り機をオンにできません。
この装置が使用開始から1ヶ月で動作しなくなったとき、私は助けようとしました。オンラインで調べると、Reddit や他の場所で多くの投稿があり、問題はこれらの場所のいずれかの配線が少しでもよじれたり、詰まったり、挟まったりすると、全体が機能しなくなるということでした。そしてこれはかなり頻繁に起こるようです。
この装置は、使用中はある意味で動きません。ロックが解除されると、ほぼ一つの位置に留まります。動かすことはできますが、形を変えたり、シフトしたり、20時間毎日形を変えるわけではありません。
このロボットは手、足、腕、すべてを、胴体も含めて常に動かし、シフトし、変化させ、形を変えています。そして、その中の配線は完璧でなければなりません。なぜなら、一本のワイヤーがよじれたり、ねじれたり、挟まったりすると、この全体が機能しなくなるからです。
ですので、彼が配線は簡単に聞こえるかもしれないが難しいと言っているのを理解できます。私たちが作る多くのものの中で、これが最も静的でないものの一つであることが本当に理解できます。絶えず形を変え、変化し、動いています。それがポイントなのです。
外骨格構造について話しましょう。エクソは外側のフレームのようなものです。カブトムシの外骨格、つまり硬い外殻のようなものと似ています。彼らは言っています。「構造的剛性を提供し、衝突荷重から保護するために、Figure O2 は航空機と同様の外骨格構造で設計されています。外側の皮膚が荷重を負担します。これは Figure 01 からの非常に急進的な設計の変更でした。」
これは興味深いです。こちらが Figure 01 です。そうですね、確かにこれらの部分、肩甲骨などの装甲のような部分が見えます。ほとんど装飾的とは言いませんが、荷重を負担するものではないように見えます。
ピックアップトラックやSUVの一部は、ボディオンフレームで構築されています。車を動かすすべてのもの、エンジン、車輪、シャーシなどがあり、そしてボディ、つまり「リビングルーム」を上に乗せるのです。対して、ほとんどのセダンはユニボディです。一つのものとして作られています。このロボットは航空機のようで、外側の殻が荷重を負担し、外部の力や衝突からも保護します。
私は、ロボットの設計と構築のベストプラクティスが、これらの会社、テスラ、Figure、その他の会社がそれを構築しているのをリアルタイムで見ているように思えます。なぜなら、彼らはみな似たような進化のプロセスをたどっているように見えるからです。つまり、進化の道筋のようなものです。
まず、ヒューマノイドにすること、人間のような手を持つロボットの手を持つことへの傾向があるように見えます。テスラは、私が知る限り、まだ外骨格アプローチを採用していません。再度言いますが、私が知る限りでです。もし何か洞察があれば、コメント欄に残してください。
私はこのチャンネルでコメントを読み始めようと思います。なぜなら、応答したいことがたくさんあり、過去に長い段落のコメントを書いていることに気づいたからです。「なぜこんなことをしているんだろう？もっと良い方法があるはずだ」と思いました。より良い方法は、これらのビデオの最後に、最高のコメントのいくつかに簡単に触れ、議論を始めることだと思います。
もしこれがあなたの得意分野であれば、ぜひ教えてください。それらのコメントを拾い上げ、次のビデオでハイライトしようと思います。誰かが何か知っているように聞こえるコメントを見たら、必ずアップロードしてください。
投稿に戻りますが、彼らは手について話しています。イーロンのロボットの手の作り方についての議論をすでにかなりカバーしたので、深く掘り下げることはしませんが、彼らはやや似たようなアプローチをたどっているようです。16の自由度があり、すべてを社内で設計しています。
オンボードのCPU/GPU、つまりすべての計算、すべての思考、すべての脳力、AIの推論、AIのニューラルネットが行う決定、それらはすべてオンボードです。これにより、実世界のAIタスクを完全に自律的に実行することができます。
これは、特に投資家にとって理解することが非常に重要だと思います。これらのロボット会社に投資しようとしている場合、先行者の優位性についても聞いたことがあるでしょう。また、ネットワーク効果もあります。つまり、何かを使用する人が多ければ多いほど、ネットワークが良くなります。特定の会社、例えばソーシャルメディアプラットフォームにはそういった効果があります。
規模の経済もあります。つまり、生産量が多ければ多いほど、特定の原材料をより安く手に入れることができ、より多くの利点があります。しかし、特にロボットに関しては、この種の新技術の初期の勝者に大きな利益をもたらすと思われる別の種のフライホイール効果があります。
それは単純にこういうことです。ロボットのフリートがあれば、1000台や100万台のロボットが歩き回って物事をしているとすれば、それらはデータを生成します。イーロン・マスクが挙げた例の一つは、グラスを持ち上げて水を注ぐような場合です。ロボットがそれをしているとき、それを見ているとすれば、グラスの持ち方、水の注ぎ方、それが起こっている様子の視覚的なビデオなどについてのデータが生成されます。正しくできたか、間違ってしまったか。
100万台のロボットがそれをしていれば、そのことについて、何がうまくいき、何がうまくいかないかについて大量のデータが生成されます。そしてそれは、ドアの開け方、階段の上り方、特定のものの持ち上げ方など、すべてに当てはまります。そのすべてのデータがトレーニングデータになります。これは、ニューラルネットワークを訓練するデータです。それらを改善するのに役立ちます。
そのトレーニングデータは、これらのニューラルネットワークの次のバージョンに入力され、それらのニューラルネットワークはすぐにロボットのフリートに更新されます。なぜなら、購入したロボットが同じニューラルネットワークに永遠に固定され、アップグレードする唯一の方法が新しいロボットを手に入れることではないからです。おそらく、テスラの車や他のソフトウェアと同様に、エアーで更新されるでしょう。
つまり、ロボットが外に出て物事をすることで、それらはより良くなります。より良くなればなるほど、より多くのことができるようになり、より多くのデータを収集できます。より良いトレーニング、より良いニューラルネットワーク、より多くのことができるようになり、より多くのデータを収集できる。これは拡大し続けるループです。
もし誰かが大きな先行を得て、最初の100万台のロボットを倉庫や他の様々な場所で働かせることができれば、彼らは早くそのフライホイール効果を始めることができます。その優位性を維持できる限り、彼らは成長し、改善し、増加し続けるでしょう。
もちろん、人々は最高のロボットを望むでしょう。ですので、ある種の独占が見られる可能性があります。あるいは少なくとも、勝者が市場のほとんどを占めるような状況になるかもしれません。彼らが改善し、成長し続けることができれば、それに加えて、Google が検索エンジンを作り、取って代わるのが難しかったのと同様のことが見られるかもしれません。
これは、イーロン・マスクが話していたことの一つです。私たちには、ロボットがどのように物事をするかについての多くのデータがありません。つまり、ロボットの視覚フィールドと、異なるものと相互作用する際のロボットの手の動きで構成されるデータです。だからこそ、Nvidia は Apple Vision Pro を使用しているのです。人々が VR ゴーグルや Apple Vision Pro を装着して座り、物を動かすのをテレオペレーションし、ロボットがそれを複製できるようにしています。そしてそのデータから学習します。
つまり、ゆっくりとあらゆるわずかなデータを絞り出して、ロボットを訓練しようとしているのです。シミュレーションでそれを行おうとしていますが、イーロン・マスクのポイントは、私たちは現実に合わせてそのデータを作成しようとしているということです。現実世界にあるものに。そして彼は、それは現実にスケールアップしない可能性があると言っています。現実にスケールアップする可能性があるのは、現実そのものだと。
ですので、もし実際に有用で機能的なロボットの最初のバージョン1.0、あるいは何であれ、を外に出すことができれば、データの収集を開始します。そしてそれは無限にスケールします。いわば現実にスケールアップするのです。
ブラッド・アトックは続けて言います。「エキサイティングなのは、Figure 1 が労働力と家庭におけるヒューマノイドロボットへの道を開いたことです。」彼らは労働力、特に製造業から始めると思います。BMW と自動車製造のための契約があると思います。それが最初の推進力になると思いますし、理にかなっています。
なぜなら、それがある意味でより簡単なアプローチだからです。工場に入れば、もう少し標準化されていて、ランダム性が少ないです。おそらく同じタスクを繰り返し行うことになります。家庭用のヒューマノイドロボットを売り始めようとすれば、人々はそれで、正直に言うと、どう言えばいいか分からないようなことを試そうとするでしょう。そこで止めておきましょう。あなたも分かると思います。製造業はより予測可能だと言いましょう。
ブラッドは、より短期間で10億台のロボットにスケールアップする可能性を見ているといいます。彼は具体的な時期は指定していませんが、近いうちに見られるだろうと言っています。イーロン・マスクも10億台のロボット労働力について同様のことを繰り返し述べています。
もちろん、彼らは人々を興奮させ、資金を集めたいと思っています。しかし、このスケールアップの速さについて、そこまでバラ色の眼鏡をかけていない人々は何と言っているのでしょうか。
ここにマット・ビーンがいます。イーサン・モルディンについては、このチャンネルで少し取り上げたことがあります。彼はこの分野で知識が豊富で十分に情報を得ている可能性のある人物としてこの人を指摘しました。
彼は知的機械、特にロボットの仕事を研究しています。MIT スローンの PhD、UCSB の助教授、スタンフォードのフェロー、TED トークスをしています。「仕事の野生の世界」というサブスタックがあります。後でリンクを貼っておきますので、チェックしたい方はどうぞ。別のビデオでカバーするかもしれません。OpenAI のルーンが彼をフォローしているようです。
彼はFigureの創設者であるブラッド・アトックの10億台のロボットへのスケールアップに関するコメントに対して次のように応答しています。「これは驚異的な成果です」と彼はFigure O2について言っています。「たとえほとんどの時間しか機能しないとしても素晴らしい。そして、10億台のヒューマノイドロボットに飛びつこうとしている人たちへ。落ち着いて、サプライチェーンについて読んでください。ソフトウェアと比較すると、多目的ボットは今後10年間、仕事や経済にほとんど影響を与えないでしょう。」
誰かが「仕事に影響を与えないと思うのはなぜですか？」と反論しています。彼は「仕事に影響を与えない」とは言っていません。影響は与えるでしょうが、わずかだと言っています。特にソフトウェアと比較すると、その効果の大きさ、強度は小さいでしょう。なぜなら、効率を10%向上させる新しいソフトウェアは、ビットであってアトムではないので、急速に複製され、野火のように広がる可能性があるからです。それは世界中にはるかに迅速に広がることを可能にします。これは私の言葉ですが、彼が言っていることをそのように理解しています。
イーサン・モルディンは、LLMとロボット工学のブレークスルーがロボット工学の分野を前進させ、過去のすべての問題を突破できるかどうか疑問に思っています。これは十分大きな出来事で、ロボットの拡散と製造などへの突破口を開くのでしょうか。
彼は言います。「これがブレークスルーになる可能性は十分にありますが、たとえそうだとしても、ハードウェアはソフトウェアではありません。ハードウェア生産のスケールアップには長い時間がかかります。」
頭の中で、物理的生産の大規模なスケールアップが起こった状況を考えてみると、2020年は興味深いケーススタディだったと確信しています。特定の成分の大規模な急増が必要で、世界中に急速に出荷しなければならない一方で、世界的な出荷の大幅な減速もありました。
イーロン・マスクのプロジェクトのいくつかを見てみるのも興味深いでしょう。彼はかなり急速に生産を増やすことができているようです。多くの人がコメント欄で私を叱るでしょうが、彼は車やトラック、ロケットを作っていて、非常に急速なペースでそれを行っているように見えます。
おそらく、中国で橋を建設する機械を見たことがあるでしょう。この機械が急速に橋や道路を建設していきます。多くのものがかなり迅速に建設されていますが、それがどれほど長持ちするかはまだ分かりません。建設の品質が十分に長持ちするかどうか、あるいは建設の速度が一部の妥協を示しているかどうかは、これが続くにつれて分かるでしょう。
同時に、中国の高速鉄道プロジェクトがあります。14年の作業と約50億ドルが費やされたようです。
私が言いたいのは、もちろん彼らは正しいです。物理的生産のスケールアップは信じられないほど難しいです。しかし同時に、誰がそれを行っているか、そしてその動機が何であるかによって大きな違いがあります。信じられないほどの速さで生産をスケールアップする人々を見てきました。また、数十億ドルを浪費し、どこにも進まないプロジェクトも見てきました。
ですので、多額の資金と大きなインセンティブを持つ人々とそうでない人々の間には大きな違いがあります。
ここでマット・ビーンは続けています。「その上、そのスケールで製造、展開、メンテナンス、アップグレードを行うのに必要な投資を正当化する需要が必要です。現代の先例として思い浮かぶのは、自動車産業と家電産業くらいです。何十億人もの人々にヒューマノイドロボットを十分に欲しがらせて、支払わせるのは簡単ではありません。」
確かにそれは理にかなっています。しかし、彼が本当に居住用の側面に焦点を当てているように感じます。「何十億人もの人々にヒューマノイドロボットを欲しがらせる」必要があるのでしょうか？
例えば、Figureに投資している人々の中には、ジェフ・ベゾス、OpenAI、NVIDIAがいます。ベゾスは他の会社、例えばAmazonにも投資しています。Amazonには70万人の倉庫労働者がいると思います。これが最新の推定値です。つまり、一人の人間、彼はもう経営していませんが、現在のCEOやベゾスが適切なメールを送れば、これらのロボットへの大規模な投資、大規模な需要を引き起こす可能性があります。
すでにBMWがFigureと契約を結んでいるのを見ています。彼らは確かに自動車製造、新しい車の生産を手伝うためにこれらのロボットを検討しています。
先ほど投票を投稿しました。下のリンクから答えることができます。実際、このような家庭用ロボットにいくら支払うかについて興味があります。
掃除、洗濯、服のたたみ、子供やペットの後片付け、基本的な料理や食事の準備ができると仮定してください。世界クラスのシェフではありませんが、冷蔵庫を整理し、食べ物を取り出し、野菜を洗い、コンロを見守るなどができます。電子レンジで何かを温めたければ、それもしてくれます。野菜を切ったりもできるかもしれません。合理的だと思うことは何でもいいですが、世界クラスのパフォーマンスは想定しないでください。
ただし、すべての基本的なタスクは行えます。10代の子供にさせるようなことは何でもできます。ベッドメイキング、食料品の持ち込み、ゴミ出し、荷物の受け取りなどです。また、芝生の手入れもできます。つまり、12歳か14歳くらいの理解力を持つ有能な子供レベルだと考えてください。
しかし、完璧な規律を持っていると仮定してください。気が散ってビデオゲームをしに行くことはありません。タスクを実行し、完了し、20時間続けてそれを行います。残りの4時間は充電が必要です。そして、あなたの家を細心の注意を払って清潔で整頓された状態に保ちます。
このようなものを持ち続けるために、月にいくら支払うでしょうか？
多くの人がこのような質問をすると、エッジケースを見つけるのが大好きです。そうですね、他の人に貸し出したり、それでお金を稼いだりすることはできないと仮定してください。これは単なる支出です。家事以外のことはできません。
私は、あなたにとってこれらすべてが20時間、完全に関与せずに行われることがどれほど価値があるかを測定しようとしているだけです。皿を洗う必要はありません。水のボトルを飲んでいる場合、飲み終わったら床に投げ捨てても構いません。ロボットが拾ってくれるので、心配する必要はありません。
Twitterでこれが投稿されているのを見ましたが、その人が設定した最高額が低かったです。月250ドルか何かだったと思います。20ドル、50ドル、100ドルを払うかどうかという感じでした。家政婦がいる場合、つまり芝生の手入れをしてくれたり、家の掃除を手伝ってくれる人がいる場合、それだけでもすでにそれ以上かかっているでしょう。
そこで、私は月2500ドルを最大として分けることにしました。あるいは2000ドル以上支払う意思がありますか？このサービスを家庭で利用するためにですね。皆さんの考えを聞くのがとても楽しみです。リンクを投稿しますので、投票してください。次のビデオで私が選んだものについてお話しします。
そして、忘れる前に急いで言っておきますが、OpenAIのリーダー3人が退職または休職しています。もちろん、グレッグ・ブロックマンは休暇を取っています。彼は長い間懸命に働いてきたので、AGIへの長い道のりを再開する前に少し休憩を取りたいと言っています。それは確かに理解できます。彼らは長い間これをやってきました。
しかし、他の人々も退職しています。例えば、共同創設者で重要なリーダーであるジョン・シュルマンが、元OpenAI研究者たちが設立した強力なライバル、Anthropicに移りました。
ここにジョン・シュルマン、OpenAIの共同創設者がいます。彼は言っています。「今日、私はOpenAIの同僚たちに次のメモを共有しました」。そして、OpenAIを去るという難しい決断をしたと言っています。AI整合性への継続的な焦点を当て、実践的な技術的作業を行いたいと考えています。これをAnthropicで行うそうです。
彼は、OpenAIでの支援の欠如のためにこれを行っているのではないと言っています。会社のリーダーたちはこの分野への投資に非常に熱心であり、これは個人的な決定だと言っています。彼はOpenAIが繁栄し続け、良い手に委ねられていると信じており、ミッションを続けるための十分なリソースと適切な才能を持っていると言っています。
また、昨年メタ・プラットフォームズ、Uber、Airtableで製品をリードした後にOpenAIに加わったピーター・デンというプロダクトリーダーも退職したようです。
これはOpenAIが崩壊しているという兆候でしょうか？私はそうは思いません。この状況全体について、そのように捉える人もいますが。
これらの多くの人々にとって、考えてみてください。彼らは非常に長い時間前に始めました。AGIに取り組んでいると言えば、人々に笑われるような時代でした。イーロンとの問題を含む多くの浮き沈みを経験し、その全ストーリーが訴訟で明らかになりました（イーロンは訴訟を取り下げたと思います）。
彼らはそのすべてを経験し、ChatGPTを提供しました。これはAIが何をできるかについての世界の認識を変えたものです。取締役会のクーデター、GPT-4のリリース、その時期に起こっていたすべてのことを経験しました。取締役会の大規模な変更、AIの影響について様々な国のリーダーたちと世界中を旅して話すこと、そしてそれ以来、継続的に製品を出荷し続けています。
もちろん、多くの人々が不満を言っています。発表はするが、約束したものを実際に提供しないと。音声モードは発表の数週間後に利用可能になるはずでしたが、まだ待っています。アルファテスターにはロールアウトされており、その結果も見ていますが。
確かにOpenAIには批判がありましたが、ほとんどの人がAIについて話す前から、それを解き放ち、今では世界中の誰もがあなたの名前を知り、AIについて意見を持ち、一時停止すべきか加速すべきかなどについて話すようになるまでの出来事のタイムラインを想像してみてください。私なら休憩が必要だと思います。
舞台裏で物事が完璧でないとしても、才能がAnthropicに移っていることを非常に嬉しく思います。Anthropicは本当に素晴らしいものを出しています。Claude 3、Claude 3.5、そのコーディング能力、彼らが行っているすべての小さな調整とアップグレード、それはとてもエキサイティングです。OpenAIの強力な競争相手であり、もちろん競争は良いことです。それは私たち他の人々にとって良いことです。1つの会社がすべてを支配することは、一般的に他の人々にとって良くありません。
舞台裏で何が起こっているか、または起こっていないかにかかわらず、私たちはまだ前進しているように感じます。これは大きな問題とは思えません。彼らはまだすべての変更から回復しようとしており、ゆっくりと何が起こっているかに適応しようとしていると思います。しかし、私たちはこの状況を監視し続けます。
そして本当に急いで、過去のいくつかのビデオで皆さんが書いてくれた素晴らしいコメントのいくつかをハイライトしたいと思います。それらに答え、より多くの議論を促すためです。今回は少しだけ取り上げますが、毎回取り上げる数を増やしていこうと思います。これについてどう思いますか？良いアイデアだと思いますか？
しばしば、私がコメントに答えていない、または読んでいないように感じるかもしれませんが、それは事実ではありません。私は読んでいます。しかし、以前は自分がしていたことに気づきました。コメントのいくつかに答えようとして、その人が提起したことについて私が考えることを長いエッセイのように書いていました。そして、「これは誰の役にも立っていない」と思いました。なぜなら、それへの可視性はそれほど高くないからです。
今後は、私が取り上げたいと思う最高のコメントをいくつか見つけ、各ビデオの最後に1〜2分程度を使ってそれについて話すようにしようと思います。どう思いますか？
前回、ロボット歯科医について皆さんの意見を聞きました。もし見逃した方がいれば、世界で初めて自律的に患者に処置を行ったロボット歯科医がいました。多くの人々が良い歯科治療を受けられないという事実についてコメントしました。もしこれによって価格が下がり、痛みが減るのであれば - 歯の痛みはほとんどの人にとっておそらく最悪の痛みの一つだと思います。おそらく最悪ではありませんが、確実に上位にあります - それが劇的に安くなれば、多くの人々がその機会に飛びつくでしょう。
ある人が答えました。「20年以上歯科医として働いてきた者として、その処置は実際にはそれほど長くありません。歯科医が穴を開けるのに5〜15分しかかかりません。」私にはまったく分かりませんが、それが正しいことは確かです。しかし、私の経験では、過去にそのような処置を受けたことがありますが、1時間から1時間半ほどかかったように思います。私の場合、クラウンの製作を待つ時間はありませんでした。誰かが何かを実際に行っている生の処置の時間でした。
子供たちよ、フロスを忘れずに、絶対に。
Executive of Life Hack は言います。「患者が再診の必要がないように処置を完了する」。AIは「理解しました、とても良いです」と答えます。
ダニエルLは言います。「私が通った大学は世界初の自動羊毛刈り機を作りました。最初の数人のボランティアにとっては、物事はうまくいきませんでした。」
この文は非常に混乱します。なぜなら、「ボランティア」とは何を意味するのでしょうか。確かに羊がボランティアになることはできません。そしてボランティアは人間を暗示しているように思えます。世界初の自動羊毛刈り機に学生をボランティアとして入れたのでしょうか？このコメントをどう解釈すればいいか分かりませんが、コメントありがとうございます。それについて考えずにはいられません。学生を入れたら何を刈ったのでしょうか。
しかし、はい、確かにパニックボタン、プロセスを完全に停止させるものがあれば、自動歯科医であれ、あなたが言及した羊毛刈り機であれ、助けになるでしょう。
イーロン・マスクとレックス・フリードマンのビデオについて、そうですね、実際にそのことについて考えていませんでした。レックス・フリードマンは9時間フルで続けました。イーロンは他の人と交代しましたが、レックスはそこに留まり、本当にその全時間を維持したように見えました。彼は衰えることなく、インタビューの最後まで非常に高いレベルで対話を続けていました。
彼はNeuralink チームの誰かと話をしていました。私には確かではありませんが。彼らの会話は意識に、意識はどこから来るのかというテーマに wandered していました。例えば、人間の中で意識を生み出すものは何かというような話です。
出てきたことの1つは、私の理解では、彼はロジャー・ペンローズとのこのインタビューを指していると思います。私のリストにあり、より深く掘り下げたいと思っているものですが、まだ完全に深く掘り下げていないので、間違っていたら申し訳ありません。
私が理解している限り、そして何度も言及されているのを聞いたのですが、おそらく私たちの意識は厳密に古典物理学の一部ではなく、量子効果と何か関係があるという考えやコンセプトがあるようです。
つまり、人間の意識は計算可能な物理学を超えていなければならないという考えです。古典物理学の範囲を超えているということは、私たちが古典物理学内で複製できるようなものではないということです。それは古典物理学の外側にあるものです。
つまり、人間の完全なコピー、正確な分子構造、原子構造を生成できたとしても、何かがまだ失われるだろうということです。少なくともそれが私の理解です。ちらっと見ただけなので。これについてもっと深く掘り下げるつもりです。非常に魅力的に聞こえるからです。
しかし、私が言いたいのは、そのインタビューの8時間後でも、レックス・フリードマンはこれらすべてのことを持ち出し、向かい側にいる科学者と非常に強く、非常に engaged なレベルで対話を続けていたということです。始めの頃と同じように。これが一気に撮影されたのかどうかは分かりませんが、それでも非常に印象的です。
ある人が「Money for Nothing」の話が大好きだったと言っています。そうですね、その曲「Money for Nothing」がどのように作られたかについて話しました。これを知ったのは約2週間前で、YouTubeの動画だったと思います。その中で、どのように作られたかについて話していました。
長い話を短くすると、アーティスト、つまりもし知らない人がいれば、基本的にロックスターですね。Dire Straits というかなり有名で、当時非常に人気のあったバンドの人でした。これはMTVが人気を得始めていた頃でした。
彼はニューヨークのある店、おそらく電気店に入ります。そこにはテレビがあり、様々なクラシックロックなどが流れています。その店の従業員の一人、おそらく配達をしたり、電子機器を設置したり、冷蔵庫を設置したりする人が、MTVに出ている人々について長々と文句を言っています。彼らは働かずにお金を得ているとか、そういった内容です。かなり不快なことも言っています。
歌手はただそこに座って、ペンと紙を取り出し、その長い文句を書き留めます。そして、スティングにイントロを歌ってもらいます。これも知りませんでした。そして、その曲全体が、ロックスターがタダで金を得て、チックをタダでもらうという長い文句を歌っているものになります。それが世界中で大ヒットし、再生されるようになります。
また、この男がMTVの人々について文句を言っているような感じのミュージックビデオも作りました。これは非常に興味深い話だと思い、それを含めることにしました。誰かがそれを気に入ってくれて嬉しいです。ありがとうございます。
私はしばしばこのような野生の、ランダムな話題に逸れてしまうので、少なくとも皆さんの一部がそれを楽しんでくれているのが嬉しいです。
あなたは、YouTubeに彼がその話をしている動画があると答えています。それを見たいと思います。そうですね、有名な話ですね。あなたがある年齢だということですね。恥ずかしながら、私はこの話を約2週間前まで知りませんでした。しかし、ミュージックビデオは確かにMTVで放送されていた頃に見たことがあると思います。
ここで話を終えておきましょう。皆さんの意見を聞かせてください。時間があれば投票に参加してください。多くの良いことが近々やってくるので、必ずチャンネル登録をしてくださいね。素晴らしい1週間になりますように。私の名前はWes Rothです。ご視聴ありがとうございました。

この記事が気に入ったらサポートをしてみませんか？