この動画では、マインクラフトとVoyagerプロジェクトについて説明されています。マインクラフトは創造性を重視した人気ゲームで、14億人以上のプレイヤーがいます。Voyagerはマインクラフト内で自動プレイし、新しいスキルを自己学習できます。また、Metamorphアルゴリズムは数千のロボットを制御でき、Isaac Simは高速の物理シミュレーションを可能にします。将来的にはAIエージェントが自律的になり、仮想と現実の世界を超えて活動することが予想されています。
公開日:2024年1月23日
※動画を再生してから読むのがオススメです。
今年の初め、私はVoyagerプロジェクトを率いていましたが、無限の創造的なことをサポートするマインクラフトほど素晴らしいゲームはありません。
マインクラフトには1億4000万人のアクティブプレイヤーがおり、オープンエンドなためとてつもなく人気があります。
固定されたストーリーラインがなく、ゲーム内で心が望むことを何でもできます。
そして、Voyagerをマインクラフトで自由にしたとき、人間の介入なしに何時間もゲームをプレイできることが分かります。
こちらのビデオは、Voyagerの単一エピソードからの断片を示しており、ただひたすらに続きます。
さまざまな地形を探索し、あらゆる種類の素材を採掘し、モンスターと戦い、何百ものレシピを作成し、絶えず拡大するスキルツリーを解除することができます。
Voyagerは、新しいスキルを発見するだけでなく、マスターすることもでき、これらは事前にプログラムされていませんでした。
これはすべてVoyagerのアイデアであり、これが我々が「生涯学習」と呼ぶものです。ここでは、エージェントが常に好奇心旺盛で、新しい冒険を追い求めています。
Aragoと比較して、Voyagerはできることの数を大幅に拡大していますが、マインクラフトではまだ一つの体だけを制御しています。
そこで、質問です。多くの異なる体で機能するアルゴリズムは可能でしょうか?
Metamorphが登場します。
これは私がスタンフォードで共同開発したイニシアティブです。
我々は、一つではなく何千ものロボットを制御できる基礎モデルを作成しました。これらのロボットは非常に異なる腕と脚の構成を持っています。
Metamorphは、階段を上がり、難しい地形を渡り、障害物を避けるために何千ものロボットを制御できることを示しました。
Voyagerと比較して、Metamorphはマルチボディ制御に向けて大きな一歩を踏み出しています。
そして今、すべてをさらに一つのレベル上に持っていき、スキルと身体性を現実間で転送しましょう。
Isaac Simの登場です。これはNVIDIAのシミュレーション努力です。
Isaac Simの最大の強みは、リアルタイムよりも1000倍速い物理シミュレーションを加速することです。
例えば、こちらのキャラクターは、シミュレーション時間のたった3日間で10年間の激しいトレーニングを経て、印象的な武術を学びます。
これは、映画「マトリックス」の仮想スパーリング道場のようなものです。
さらに、Isaac Simは無限のバリエーションを持つ世界を手続き的に生成できるため、2つの世界が同じに見えることはありません。
エージェントが1万のシミュレーションをマスターできれば、私たちの実際の物理世界、つまり1万1番目の現実にも一般化する可能性が非常に高いです。
このマップを進むにつれて、最終的には右上の角に到達します。それは3つの軸すべてにまたがって一般化する単一のエージェント、基礎エージェントです。
そして、我々はそれを、たくさんの現実で大規模にスケールアップすることで訓練します。
私は、動くすべてのものが最終的に自律的になり、ウォーリー、スターウォーズ、レディプレーヤー1に登場するすべてのAIエージェントが、物理的空間であれ仮想空間であれ、すべて同じ基礎エージェントへの異なるプロンプトにすぎないことに気づく日が来ると信じています。
そして、それが私たちのAIに対する次の大きな挑戦、私たちの要求になるでしょう。
これはジム・ファン博士です。OpenAIの外では、彼が私のお気に入りのAI研究者の一人です。
最近、彼のTEDトークがついに公開されたというアナウンスメントを投稿しました。
彼は基礎エージェントのレシピを提案しています。もしあなたが意志を持っていれば、異なる世界で行動する方法を学ぶ単一のモデルです。
今、LLMは多くのテキストにわたってスケールします。
基礎エージェントは、多くの現実にわたってスケールします。
それは1万の多様なシミュレーションされた現実をマスターすることができます。
それは非常にうまく私たちの物理的世界に一般化する可能性があります。それはあなたが1万1番目の現実として単純に考えることができるものです。
私はこれを知りませんでしたが、TEDトークにはテレプロンプターがありません。
彼が持っていたのは、現在のスライドとタイマーを表示する足元のコンフィデンスモニターだけです。
彼は素晴らしい仕事をしたと言わざるを得ません。
おめでとうございます。そして、もっと見ることに非常に興奮しています。
ted.comでのフルトークを皆さんに是非チェックしていただきたいとお勧めします。
彼が提案していることについてもっと詳しく語っていますので、下のショーノートにリンクを貼っておきます。
さて、ジム・ファン博士は、大規模言語モデルを搭載したオープンエンドのエンボディエージェント「Voyager」の立役者の一人でした。
それが彼、リンキ・ジム・ファン博士です。
彼はNVIDIAでの上級AI研究者の一人です。
Voyagerの本当に印象的な点は、連続して学習できることでした。
ここで見ることができるように、AutoGPTを含む他の多くのものは、最終的に頭打ちになります。
学習を止めます。
進歩しません。
実際、スキルライブラリーがなければVoyagerもある時点で頭打ちになります。
改善が止まります。
しかし、フルアーキテクチャのVoyagerは途切れることなく続けます。
それを得るためには、一生涯学び続けるものです。
自動的なカリキュラムがあり、そこでスキルを学びます。
それらのスキルを実行するコードを書きます。
コードは基本的にスキルそのものです。
それは環境でテストして、動作するかどうかを確認し、自己検証を行い、そのスキルをスキルライブラリに追加します。
この詳細を見たい場合は、私が動画を作成しました。
それもショーノートにリンクします。
これは私の心を打ち震わせ、可能性を広げてくれた最初の大規模なAI研究の一つでした。
GPT-4が箱から出してすぐにこれだけのことができるとは、目も当てられませんでした。それも視覚なしで。
それ以来、同じチームが別の大きな驚きを発表しました。
ちなみに、彼らの多くはNVIDIAにいます。
これはNVIDIAの研究部門の一環でした。
彼らはロボットが指でこのように鉛筆を回転させる方法を教えました。これは以前はほぼ不可能と考えられていました。
しかし、それをどのように行ったかはさらに興味深いです。
その論文はこちら、「Eureka: Human-Level Reward Design via Coding Large Language Models」です。
再び、ここではGPT-4を使用しています。
GPT-4は、NVIDIAのロボットシミュレーションであるIsaac Simでシミュレートされるさまざまなロボットのための報酬モデルをコーディングします。
コードはテストされます。
それはIsaac Simで実行されます。
そして、その結果はフィードバックと共にGPT-4に戻されます。
GPT-4はそれを見て、再度試みます。これはGPT-4がこれらのシミュレートされたロボットにさまざまな機能を実行させるコードを書く能力を向上させるために繰り返し行われます。
再び、詳細については全動画を見ることができますが、主なポイントは、それが非常にうまく行ったということです。
A++++です。
それは人間の専門家よりもロボットのための報酬コードを書くのが上手でした。
それは人間が考えもしなかった新しい解決策、前例のない解決策を生み出しました。
そして最後に、ジム・ファン博士は講演の最後に、それがどのようにファウンデーションエージェントに翻訳できるかについて話しました。ファウンデーションエージェントは、物理法則や複雑さ、摩擦、デジタル世界であれ現実世界であれ、どんな世界でも何でもできるエージェントです。
それらはあなたのシミュレーションに入り、それを学びます。
時間は非常に速く進みます。
そのシミュレーションでは、年が非常に速く過ぎます。そして、何百万ものロボットが非常に一生懸命そのシミュレーションで何かをする方法を見つけるために働きます。
正しく行うと、ロボットには報酬が与えられます、プラスワンリトルロボット。
そして、そのようなニューラルネットワーク、AIの脳がシミュレーションから取り出されて実際の物理的なロボットに入れられると、それはすべてのスキルを保持します。
それはまだそれがするべきことをするのが本当に上手です。
したがって、シミュレーション学習は実際の物理的なシナリオに非常にうまく翻訳されます。
NVIDIAだけがこれらの結果を見ているわけではありません。
もちろん、Google DeepMindも多くの類似した結果を見ています。
OpenAIとその初期の研究からも同じことが見られます。
これは、ロボティクスがこれらの時間圧縮チャンバーで訓練される次世代の方法です。そこでは時間が非常に速く進み、彼らは訓練することしかしません。
それはあなたに何かを思い出させますか?
以前どこかでこのアイデアを聞いたような気がしませんか?
ああ、そうですね、ドラゴンボールZの精神と時の部屋、90年代のアニメです。
登場人物たちはこの精神と時の部屋に入り、非常に長い時間を過ごし、訓練を積んで元気に出てきます。
これが重要な理由の一つは、NVIDIAが単なるチップ会社ではないということを理解することが重要だからです。
NVIDIAは、ただコンピューター用のグラフィックチップを作っているだけではありません。それによってゲームを非常に速く、目がくらむほどの解像度でプレイできます。
NVIDIAはまた、AI研究の世界的リーダーでもあります。
NVIDIAは、工場やロボット、物理学のシミュレーションが非常に上手になっており、それらのシミュレートされた現実においてロボットを構築し、テストを行っています。
そして、それらの現実は、私たちが生活する基本的な現実と非常に似た方法で機能しています。
しかし、より多くのシミュレーションを構築するほど、それはより深くなっていきます。
より多くのシミュレーションがあるほど、これは本当に基本的な現実なのかと自分自身に問いかけなければなりません。
それとも、私たちはここで小さな自動機械として動いており、実際の基本的な現実にいる上位の人々のために新しいスキルを学び、物事をどうやって行うかを理解しているのでしょうか?彼らはおそらく自分たちの現実が基本的な現実かどうか疑問に思っているでしょう。
では、この辺で終わりにしましょう。
楽しんでいただけたら幸いです。
私の名前はウェス・ロスです。ご覧いただきありがとうございました。