この動画は、NVIDIAのシニアリサーチサイエンティストであるジム・ファンのTED Talkを紹介しています。彼は「Foundation Agent」というAIエージェントについて語り、これは仮想世界と現実世界の両方で活動できるAIの新しい概念です。このAIエージェントは、ビデオゲームからロボットまで様々な分野で活躍し、多様なスキルを習得する能力を持っています。特に、「Voyager」というマインクラフトを学ぶAIエージェントについて詳述されています。VoyagerはYouTubeのゲームプレイ動画から学び、自己改善メカニズムを通じて新たなスキルを習得し、自己進化を遂げることが可能です。さらに、ジム・ファンはFoundation Agentの将来的な発展についても言及しています。これには、YouTubeのプレイ動画からデータセットを作成し、AIが行動を学習する方法や、エージェント間の相互作用を通じたタスク達成の研究が含まれます。
公開日:2024年2月1日
※動画を再生してから読むのがオススメです。
最近のTED Talkでは、AIエージェントについて話されていて、NVIDIAのシニアリサーチサイエンティストであり、AIエージェントイニシアチブのリードを務める方によって非常に魅力的なトークが行われました。
これはNVIDIA AIのシニアリサーチサイエンティストであるジム・ファン氏であり、この魅力的なトークでは、AIエージェントが将来どのような方向に進んでいるのかを詳しく説明しています。
彼は「Foundation Agent」というものについて話しており、これは仮想世界と物理世界の両方でシームレスに操作できるものであり、この技術が私たちの生活を根本的に変える可能性があると説明しています。ビデオゲームやメタバースからドローンやヒューマノイドロボットまで、さまざまな領域に浸透し、単一のモデルが異なる現実でこれらのスキルを習得する方法を探求しています。
ただし、「Foundation Agent」とAGI自体を混同しないでください。AGIは、機械が広範なドメインで人間と同様に問題を理解し、学習し、知識を適用することができる人工知能のレベルを指します。
「Foundation Agent」というアイデアは、仮想環境と物理環境の両方で操作できる多機能なAIを作り出すことに関するもののようです。さまざまな現実でスキルを習得することができます。
このビデオでは、私はジム・ファン氏自身との非公開のディスカッションに参加する機会を得ました。彼はFoundation Agentの真の未来について話し、彼が取り組んだいくつかの研究論文についても議論しました。これらの研究論文は、将来のFoundation Agentの研究開発と産業全体の発展に貢献することになります。
では、彼のTED Talkから数秒間だけご紹介します。AIの進展について最新情報を知りたい場合には、ぜひ見逃さないでください。そして、AIエージェントやジム・ファン氏自身が取り組んだいくつかの論文についての私たちの会話も共有します。
この地図を進んでいくと、最終的には上右の角にたどり着きます。それは、すべての3つの税金を横断する単一のエージェントです。
そしてそれが、Foundation Agentです。
私は、Foundation AgentのトレーニングはChatGPTと非常に似ていると考えています。
すべての言語タスクは、テキストの入力とテキストの出力として表現することができます。
詩を書くこと、英語からスペイン語への翻訳、Pythonのコーディングなど、すべて同じです。
そして、ChatGPTは、大量のデータを使ってこれを大規模に拡大します。
同じ原則です。
Foundation Agentは具現化プロンプトとタスクプロンプトを入力とし、アクションを出力します。そして、私たちはたくさんの現実にわたってそれを大規模にスケーリングすることでトレーニングします。
まずカバーしたい作品はVoyagerです。Voyagerは、プロのマインクラフトプレイヤーとして活躍できる最初のAIエージェントの一つでした。
だから、おそらく皆さんはマインクラフトに詳しいと思います。
アクティブなプレイヤーは約1億4000万人います。
それはイギリスの人口の2倍以上です。
それは非常に人気のある愛されているゲームであり、ストーリーが固定されていません。
ゲーム内で心のままに何でもできます。
だから、AIにも同じ能力を持たせたいのです。
そして、Voyagerをマインクラフトに解放すると、人間の介入なしで何時間もゲームをプレイすることができます。
この動画は実際にはVoyagerの一つのエピソードからの断片です。
これは4〜5時間続いた単一のプレイであり、その一部を取り出してこのモンタージュを作りました。
だから、Voyagerが地形を探索し、さまざまな素材を採掘し、モンスターと戦い、数百のレシピを作り、ますます広がるスキルを開放する様子がわかります。
それの魔法は何でしょうか?
鍵となる洞察は、コーディングをアクションとして扱うことです。
マインクラフトは3Dの世界ですが、私たちの最も強力なOMS、少なくともVoyagerの作成時点ではGPT-4はテキストのみでした。
だから、3Dの世界をテキスト表現に変換する方法が必要でしたが、非常に熱心なマインクラフトコミュニティのおかげで、私たちは実際に使用できるオープンソースのJavaScript APIを持っています。
それはMind Flayerと呼ばれています。
だから、私たちはこのコードAPIを使用します。
そして、VoyagerはGPT-4の上に設計されたアルゴリズムです。
それが行う方法は、GPT-4を呼び出してJavaScriptのコードスニペットを生成することです。
各スニペットはゲーム内で実行可能なスキルです。
そして、コードを書いた後、実際のゲームランタイムで実行されます。
そして、Voyagerが書くプログラムは常に正しいわけではありません。
だから、改善するための自己反省のメカニズムがあります。
具体的には、自己反省の3つの異なる源があります。
1つはJavaScriptの実行エラーであり、エージェントの現在の状態(空腹、体力、インベントリ)や世界の状態(逃走、資源、近くの敵)がエージェントの状態からVoyagerに提供されます。
そして、状態を元に、エージェントはアクションを実行し、そのアクションの結果を世界と自身に観察し、より良い方法を考え、さらにアクションと試行を繰り返します。
スキルが成熟すると、Voyagerはプログラムをスキルライブラリに保存し、将来的に迅速に記録できるようにします。
GPT-4によって完全に作成されたコードベースと考えることができます。
そして、このようにして、Voyagerはマインクラフトで探索や実験を行いながら、自身の能力を再帰的にブートストラップすることができます。
なぜなら、今はコーディングについて話しているからです。そして、コーディングは構成的なものです。
Voyagerはたくさんの関数を書くことができ、将来の関数はより複雑なスキルやプログラムの中で古い関数の一部を構成することができます。
では、一緒に実際の例を見てみましょう。
マインクラフトのエージェントは、空腹ゲージが20のうち1になるのを感じます。
だから、食べ物を見つける必要があると知っています。
そして、今は近くに4つのエンティティが感知されます:猫、村人、豚、そして小麦の種。
それでは、内なる対話を始めましょう。
猫を殺す?それとも村人を殺す?食べ物のために。
それは良くない考えのようです。
小麦の種はどうですか?
農場を作ることができますが、非常に長い時間がかかります。
だから、ごめんね、豚ちゃん、君が選ばれたんだ。
そして、Voyagerはインベントリをチェックし、ライブラリから古いスキルを取り出して鉄の剣を作ります。
そして、新しいスキルである「funded pig」を学び始めます。
これがVoyagerがこのループを通過する実際の例の一つです。
そして、まだ疑問が残っています。Voyagerはどのようにして無期限に探索を続けるのでしょうか?
私たちがしたことは、ボイジャーに高レベルの指示を与え、できるだけ多くのユニークなアイテムを入手することです。
そして、ボイジャーは自らカリキュラムを実装し、徐々に難しくて新しい課題を見つけ出すようにしています。
これらはすべてハードコードではないことを強調したいと思います。
スキルの進展は、ボイジャー自体が探索することで発見されます。
また、ボイジャーが提案するカリキュラムは、現在の能力に基づいて条件付けられていますね?
たとえば、木の道具しか使い方を知らない場合、ダイヤモンドの道具が必要なタスクを解決することを提案するべきではないでしょう?
それには進展があります。
そして、ボイジャーはこのカリキュラムを自動的に見つけることができます。
これらすべてを組み合わせると、ボイジャーはマスターするだけでなく、途中で新しいスキルを発見することができます。
これらのいずれも私たちが事前にプログラムしたものではありません。
すべてボイジャーのアイデアです。
私たちは単に、プレイセッションからいくつかのスナップショットを取りました。
それがここに表示されているものです。
このプロセスを終身学習と呼び、エージェントは常に好奇心を持ち、新しい冒険を追求し続けるのです。
複数のエージェントを同じサーバーに配置し、お互いと協力してタスクを完了できるように学習できるかどうかを考えたことはありますか?
それは素晴らしいアイデアです。
私たちはそれについて考えました。
しかし、当時はフレームワークがマルチエージェントを本当にサポートしていなかったと思います。
少なくとも、私たちが実装したフレームワークはそれをあまりサポートしていません。
しかし、それは私たちの未来です。
だから、それは非常に興味深い質問です。
そして、私はマルチエージェントを持つことで新しい出現的な特性があると思います。
そうですね、そうです。
なぜなら、私の考え方全体が長期的なものだったので、30人以上のエージェントが一緒に村を建設するなどの世界で見ることができるかもしれません。
彼らが時間の経過とともに異なる理念や目標をどのように発展させるか、どのように彼らを分けるかを本当に見ることができるかもしれません。
私はそれが興味深いと思っただけです。
回答してくれてありがとう。
それは非常に興味深いです。
そうですね、素晴らしいアイデアですね。
私はあなたのTED Talkで、Foundation Agentが進むべき道だと述べていましたね。
私の理解では、MineDojoのおかげでVoyagerは非常に成功しています。
では、あなたと他のNVIDIAの研究者は、データセットのキュレーションの壁を乗り越え、Foundation Agentが1万の他のシミュレートされた現実や、たとえばTerrariaでプレイできるようにする予定ですか?
はい。
だから、ここにはいくつかの次元があります。
私のTED Talkでは、3つの軸について話しています。
最初の軸は、エージェントがマスターできるスキルの数です。
そして2番目は、それが制御できる具現化の数です。
具現化とは、ロボットのようなものを指します。
人型の形状やロボット犬、マインクラフトのエージェントなど、さまざまな形状を制御できます。
異なる方法、異なる体を制御することができます。
これが具現化と呼ばれるものです。
そして3番目の軸は、基本的にはエージェントがマスターできるシミュレーションの数です。
ここでは、Voyagerではマインクラフトでしか試していません。なぜなら、それは無限の世界だからです。
それは1つのシミュレーションのようなものですが、メタシミュレーションのようなものですね。
この1つのシミュレーションでは、無限に多くの異なることができます。
実際には、無限の創造的なことができます。
そして、私たちは人間がこの世界でクレイジーなことをしているのを見てきました。
実際に、マインクラフト内で機能するCPU回路を作った人もいました。なぜなら、マインクラフトはレッドストーン回路というものをサポートしているからです。それがゲームを不完全にするらしいです。
それはプログラム可能なゲームのようなものです。
マインクラフトはただの1つの種類のシミュレートされた現実です。
しかし、世界中には数千ものゲームがありますよね?
ゼルダの伝説やエルデンリングなどがありますよね?
すべてのオープンエンドゲームがあります。
また、ロボットのためのシミュレートされた現実もあります。
そして、私たち自身のオリジナルの現実である現実世界もあります。
だから、私がエージェントのための基盤モデルの将来を考えるとき、私たちは私が話した3つの軸全体にわたってスケールする必要があると考えています。
私たちは、制御できるスキルや具現化の数を拡大する必要があります。
1つのモデルですべてのロボットボディを制御できます。
そして、さまざまな世界、仮想的な世界と物理的な世界の中でさまざまなルール、メカニズム、物理をマスターすることができます。
そして、ここでのアイデアは、モデルが100の異なるシミュレートされた現実をマスターできる場合、私たちの現実の物理的な世界は単に101番目の現実になるということです。
皆さんはシミュレーション仮説というものを聞いたことがあるかもしれませんね?
現実の世界は実際にはシミュレーションだということです。
形而上学や哲学について一日中話すことはできますが、私は実際にはその考えがAIを構築するのに適していると思っています。
なぜなら、AIにとって、私たちの現実の世界はただの別のシミュレーションに過ぎないからです。
実際にこの原則を使って、次世代の具現化されたAIシステムの設計をガイドすることができます。
これは、私のTED Talkで紹介したメインアイデアであるFoundation Agentの簡単なまとめです。
はい。
それで質問に答えましたか?
はい。
どのように進行しているかがもっと知りたかったんです。なぜなら、データがおそらく重要な鍵になるでしょうし、どのようにしてスキルを学ぶかは、たとえば、私が覚えているMineDojoか、どちらか忘れましたが、YouTubeを利用してMinecraftの動きやスキルをすべて学んでいるようなものに依存していることによるのです。
つまり、基本的には既存のデータに頼らなければならないのか、それとも将来的にはエージェントがシミュレーションしたり、自然にスキルを学ぶことができるのか、ということですか?
はい。
私はMineDojoのスライドに切り替えて、再共有します。
そうですね、あなたの言う通り、プロセスを始めるためにはいくつかのデータが必要です。
そして、特にマインクラフトの場合、このゲームはおそらくYouTubeで最もストリーミングされているゲームの一つです。
だから、数百、もしくは何百万時間ものマインクラフトのプレイ動画がオンライン上に存在します。
そして、MineDojoでは、このプロセスを探求しました。
私たちはこのデータセットを探求しました。
私たちは、ゲーマーがゲームをプレイしている様子と、何をしているかを説明しているナレーションが両方含まれるYouTubeの動画をたくさん集めました。
これらは、実際のチュートリアル動画からのセグメントですね。
例えば、ビデオクリップ3では、私がこの豚の前で斧を振り上げると、起こることはただ一つです。
これは実際にYouTuberが言ったもので、私たちはそれをデータセットに入れました。
このモデルの使い方は、MineCLIPと呼ばれるものを訓練することです。
技術的な詳細は省きますが、このモデルは、ビデオとビデオ内のアクションを説明するトランスクリプトとの関連性を学びます。
この例では、このテキストを使って、木からもう少し薪を集めることにしましょう。このテキストは、このビデオの活動と非常によく一致しています。
したがって、このスコアは1に近くなります。
そして、この部分は豚について話しています。
このビデオとは合っておらず、スコアはほぼゼロになるでしょう。
そのため、スコアは常にゼロから一の間になります。
そして、一は完璧な説明を意味し、ゼロはテキストが関係ないことを意味します。
そして、これを報酬関数として扱うことができます。
具体的には、エージェントのシミュレーションがあります。
そして、羊を取得するために羊を共有するように求めるタスクプロンプトがあります。
エージェントが探索すると、ビデオの断片が生成されますね?
そして、このビデオの断片はこの言語の埋め込みと比較され、スコアが出力されます。
このスコアを最大化したいのです。なぜなら、それはあなたの行動がタスクプロンプトが望むものと一致していることを意味するからです。
そして、これは強化学習のループになります。
実際にはROIトラックです。
それを見ると、それを絞り込むと、ROIトラックですね。
マインクラフトでの人間のフィードバックからの強化学習。
ただし、人間のフィードバックはデータセットを手動で注釈付けして学習するのではなく、YouTubeからトランスクリプトとビデオを取得することで学習されます。
ですから、MineDojoの論文では、このYouTubeビデオのデータセットを活用することができました。
そして、今後は他の方法もありますよね。
スライドでもちょっと触れました。
例えば、ビデオから視覚表現のエンコーディングを学ぶことができます。
ビデオから視覚的表現のエンコーディングを学ぶことができます。この研究はロボティクスに応用されていますが、マインクラフトなどの他の用途にも使えます。
また、アクションを擬似ラベリングすることで、ビデオから直接いくつかの行動を学ぶこともできます。
ですから、ビデオを利用して具現化エージェントをブートストラップする方法はたくさんあります。
MineDojoはその中でも非常に特殊な方法です。
それでは、ジム、ありがとう。
ダニエル、質問があると思いますが。
アクションスペースは、さまざまなYouTubeのクリップから人間によって注釈付けされました。
ラベルスタジオのセットアップを行い、ラベリングを行っていたと思います。これはマイニングをしているもの、XYZをしているものなどをラベリングしていました。
しかし、Voyagerでは、それらのアクションはGPT-4によって抽出され、データベースに保存されました。
私の質問は、AIによって見つけられたアクションについて気付いたことはありますか?
最近のツイートのように、AlphaGoのように、人間がしないような手を見つけたことはありますか?
人間がしないような動きを保存していました。
そして、今気づいたのですが、ビデオデータはすべて人間の行動でした。
だから、それが必ずしもそうではないかもしれません。
そうですね。
いくつか注意点があります。
まず、MineDojoでは、ラベリングの部分はマインクラフトで可能なタスクのセットを作ることに関係しています。
そして、そのタスクのセットはYouTubeのビデオから選びました。
しかし、それらは行動ではなく、モデルの訓練には使用されません。
だから、私たちはモデルの訓練には、野生の中でのトランスクリプトのみを使用しています。
そして、手動のキュレーションは、興味深いタスクを示すためだけです。
しかし、それを行動として使用していません。
そして、Voyagerに戻って、あなたの質問に答えると、生き残るために必要なこれらのスキルを学ぶことができますし、新しいオブジェクトを見つけることもできます。
なぜなら、私たちは、これを与えました、ええ、これを一つ。
私たちは、高レベルの指令を与えました。
それは、取得できるオブジェクトの数を最大化することです。
だから、Voyagerには、あなたのタスクは、新しいオブジェクトの数を最大化することです、と伝えました。
そして、Voyagerは、そのような非監督学習の目的を達成しようとします。
私たちは、ダイヤモンドを見つける必要があるとは言っていません。
鉄を見つける前に石を見つける必要があるとも言っていません。
ダイヤモンドを見つける前に鉄を見つける必要があるとも言っていません。
私たちはそれを伝えませんでした。
ただ、できるだけ多くの新しいオブジェクトを見つける必要があると言っただけです。
そして、実際にはそれを測る方法があります。
私たちは、そのインベントリを見ることができます。
そして、その寿命を通じて取得できる多様なアイテムの数を数えることができます。
だから、実際に定量的に測ることができます。
ここに図を示しましょう。
実際には、いくつかの先行研究との比較があります。
これです。
基本的に、これはReactで、ある種のベースラインとAutoGPTを反映しています。
そしてこれがVoyagerです。
そしてこれがVoyagerです。
青い方は、スキルライブラリのないVoyagerです。
そして、この図では、x軸はプロンプティングの反復回数です。
そして、y軸は発見または作成できる異なるオブジェクトの数です。
問題ありません。
インベントリにいる限り、新しいオブジェクトが見つかると、進捗にカウントされます。
だから、これは高レベルの目標プログラミングツールを持っています。
そして、ほとんどの場合、スキルのようなものは、人間ができると思います。
Voyagerはまだクレイジーなものを作ることはできません。
なぜなら、それにはビジョンが必要だからです。
そして、元のVoyagerでは、コンピュータビジョンはありませんでした。
それはピクセルからのタスクを実行していません。
それは世界をテキストに変換しています。
そして、それは制約です。
だから、城を建てたいなら、何を建てているか見なければなりません。
そうでないと、3D座標を伝えるのは本当に難しいですし、頭で理解しようとするのも難しいです。
人間にとっても、本当に難しいです。
だから、Voyagerは建築タスクを行いません。私たちはそれを頼んでいないからです。
そしてまた、知覚モデルの制約のために、それが完全に可能ではありません。
あなたにとって、YouTubeのようなコーパスがこの種のオープンエンドの具現化エージェントのトレーニングにおける戦略的な価値は何ですか?
これらのエージェントは、シミュレーションと実世界のデータで異なるルールを理解することができるのでしょうか?
例えば、物理学は大きく異なります。
では、あなたの考えは何ですか?
だから、Foundation Agentを構築するための要素の一つは、マインクラフトのビデオだけでなく、さまざまなゲームのビデオや、さまざまなタスクを行う人々のビデオなどを理解できる優れたビデオモデルです。
私たちはできるだけ多くのビデオでトレーニングしたいのです。なぜなら、ビデオがエンコードしているものは、私たちが技術的に直感的な物理学と呼んでいるものだからです。
だから、私たち全員が日常のタスクを行うとき、頭の中で物理学の方程式を解くわけではありません。
もし床にカップを落としたら、あなたの脳は水がどこにこぼれるか正確に計算することはできませんし、カップがどのように壊れるかも計算できません。
それをすべてシミュレートすることはできません。
しかし、あなたは大まかに自分がめちゃくちゃになることを知っています。
水はこぼれて、グラスのカップならほとんど壊れます。
物事がどのように進むかについて、おおよその常識があります。
それが私たちの脳内の予測モデルであり、直感的な物理学と呼ばれるものです。
それは物理学ではなく、直感です。
私たちはすべての軌道を計算することはできません。
そして、現在の具体的なエージェントには、この常識が欠けています。
彼らは実際に次に何が起こるのかを予測することができません。
彼らの脳にはこの直感的な物理学が組み込まれていません。
そして、直感的な物理学を学ぶために、私はたくさんのビデオを学ぶことが最善だと信じています。
そして、一度その常識モデルを持っていても、それだけでは十分ではありません。
次に何が起こるかを予測することはできますが、どのように行動するかはまだわかりません。
テニスのチャンピオンがテニスをプレイしているのを見ても、一日中見ていて次に何が起こるかはわかります。
脳内に予測モデルがありますが、あなたは最高のプレイヤーと同じくらいテニスができますか?
実際にビデオから学んだ常識を確固とするためには、まだたくさんの練習が必要です。
そして、それがシミュレーションが重要な役割を果たす方法です。
ですから、ビデオと多くの事前トレーニング、そしてマインクラフトやPhysics Simなどのシミュレーションを通じて、知識を試行錯誤することが本当に重要です。
そして、それが次の具体的なシステムを構築する方法だと私は考えています。
それで質問に答えられたらいいのですが。
はい、答えられました。
それがOmniverseがこれらすべてにどのように適合するか、そう見えるのですか?
テスラのようなノイズの多い大規模なデータがある一方で、シミュレートされた環境での合成トレーニングデータや、オープンエンドのエージェントが試行錯誤する必要もあるのではないでしょうか。
はい。
これはどうでしょうか?
画面を共有させてください。
これはEurekaです。
これはNVIDIAのシミュレーションでペン回しのトリックができる5本指のロボットハンドです。
そして、これを訓練する方法は、実際にはOmniverseの上に構築されたISXSimというものを使用することです。
抽象化レベルに関しては、Omniverseは基本レベルのグラフィックスエンジンのようなものと考えることができますね。
最新のGPU上で動作します。
ハードウェアのネイティブなアクセラレーションを得ることができ、レンダリングや物理演算なども行います。
Omniverseに含まれています。
そして、ISXSimは、特にロボット工学のためにOmniverseの上に構築されたライブラリです。
したがって、ロボットの手のモデルやオブジェクトをインポートし、ここでのペンとの指の接触物理を計算することができます。
そして、ISXSimの最も重要でおそらく最もユニークな機能は、スケーラビリティです。
つまり、単一のGPU上で10,000の環境を並列に実行することができるため、実質的に現実を10,000倍速く進めることができます。現実世界では、実際の物理に制約がありますよね?
このレベルのスループットでデータを収集することは不可能です。
しかし、シミュレーションでは可能です。
計算を行い、並列計算を行えば、同時に10,000のロボットハンドがペンを回転させるようなことをシミュレートすることができます。
そして、このようにデータストリームをスケーリングアップし、物理的なロボット上で直接行う場合にはおそらく10年かかるであろうペン回しのような非常に複雑なポリシーを訓練することができますよね?
非常に遅いです。
ですので、それが具現化エージェントにおいてICMDシミュレーションがどのように関与しているかです。
そして、Eurekaについて話しているので、この研究についても簡単に説明します。
Eurekaはどのように訓練されるのでしょうか?
基本的に、Eurekaには2つのループがあります。
外側のループは、言語モデルであるGPT-4が、物理シミュレーションAPIでコードを書くことです。
そして、このコードが報酬関数となります。
強化学習では報酬関数が必要であり、最大化するものがあることが必要ですよね?
何か目指すものが必要です。
それが2番目のループです。
内側のループは、報酬関数が与えられた場合に、ロボットハンドを制御する別のニューラルネットワークを強化学習して訓練することです。
そして、この二重ループシステムがEurekaをかなりユニークなものにしています。
これは、システム1と2の思考と考えることができますね。
本「思考の遅い思考の速い」からの引用です。
LOMループはシステム2のループであり、高レベルの推論を行っていますね。
それは手のパフォーマンスを見ています。
そして、コードの変更を提案しています。
だから、それはシステム2の意図的な遅い推論のようなものです。
そして、右側のループはシステム1のループです。
それは速く、無意識のようなものです。
ペンを回しているときには推論をしないでしょう?
それはむしろ感覚のようなものです。
それは筋肉の記憶です。
だから、右側のループはシステム1であり、より小さなニューラルネットワークですが、LOMよりも高い周波数で、非常に器用なタスクを制御することができます。
ペン回しだけでなく、ロボットの他の種類の手作業もできます。
ここでは表示していませんが、基本的にこの方法は汎用性があり、ペン回しに限定されていません。
わかりました。
5分間、質問を受け付けます。
ありがとうございました。
できるだけ早く説明します。
ペーパーに書かれているように、報酬関数は実質的にリアルタイムで更新できると言っていましたね。
それは正しいですか?
モデル全体を再訓練する必要はありません。
報酬関数については、右側のループが終了するたびに更新されます。
このループは、完全な強化学習のトレーニングセッションと考えることができますね。
そして、それを収束させてから、GPT-4にパフォーマンスメトリックを報告し、GPT-4が次の報酬関数を提案します。
わかりました。
この先、私が見ている未来では、実際の世界に存在するボットを持つことができ、同じアーキテクチャを使ってボットを訓練することができるかもしれません。具体的な例を示してそれを実践させることで、ボットが同じ例を自分で練習することができるかもしれません。
ただ、あなたたちはロボットに非常に焦点を当てているように見えるので、ちょっと疑問に思っています。
それが、あなたたちが向かっている未来なのですか?
はい。
私たちはEurekaをさらにスケールアップする方法はたくさんあると思いますよ。
例えば、スキルの習得スキルです。
そして、私たちは一度に一つのスキルを学んでいますよね?
このペン回しのスキルは、一つのEurekaの実行です。
しかし、もし私たちがたくさんのGPUを投入すれば、同時にたくさんの異なるスキルを行うことができると想像できます。
それは私たちが考えていることです。
ああ、そして実際にこのビデオでは、他にもたくさんのタスクを試しているのが見えますが、各タスクは別々のニューラルネットワークですよね?
私たちはマルチタスキングを持つ単一のニューラルネットワークを訓練しているわけではありませんが、それは次の明らかなステップです。
そしてもう一つは、実際の世界でそれを動かすことです。
それにはシムからリアルへの移行が必要ですよね?
どのようにしてニューラルネットワークの学習シミュレーションを実際の世界に移すのでしょうか?
それにはいくつかの技術があります。
その一つがドメインランダム化と呼ばれるもので、先ほど言ったシミュレーションの仮説です。
たとえば、10,000の異なるシミュレートされた現実や異なる物理的な構成を制御できる場合、例えば地球の重力や月の重力、火星の重力など、シミュレーションで10,000のそれらを扱える場合、それは非常に複雑でシミュレーションとは異なる実世界にも一般化できる可能性が非常に高いですよね?
シミュレーションは常に実際の世界の正確な描写にはなりませんが、それがシムからリアルへのギャップを克服する方法です。
私はEurekaが昨年の非常に評価されていない研究論文だと感じています。
おそらく私のお気に入りです。
それはその種の最初のものですか?
ああ、すみません。
LLMで訓練されたロボットは初めてのものですか?
完全にLLMで訓練されたロボットですか?
もしそうなら、現在、Isaac Gymで学んだスキルを実際の世界のロボットに適用するための橋が建設されていますか?
はい。
まず、お褒めの言葉をありがとうございます。
LLMとロボティクスを組み合わせた研究はいくつかあります。
バークレー、スタンフォード、いくつかの大学からもいくつかの研究があります。
しかし、私の知る限りでは、Eurekaはロボットの訓練方法としてLLMを使う最初のものであるはずです。
Eurekaは、ロボティクスの開発を自動化するものと考えることができます。
なぜなら、通常、報酬関数はロボットの開発者である人間のエンジニアによって書かれるからです。すべての開発者が報酬関数を書くことはできません。
それは実際に非常に特定のものです。
物理シミュレーションの使い方についてのドメインの専門知識が必要です。
それを行うためには、フレームワーク全体に精通している必要がありますよね?
訓練なしでこれを行うのは、どんなプログラマにとっても簡単ではありません。
しかし、ここではGPT-4がドキュメントのゼロショット理解に非常に優れていることがわかりました。
ですので、MVDS物理APIのドキュメントを単純にGPT-4に与えます。
そして、それがこれらの報酬関数を書きます。そして、それらはできます。
実際には、それは人間の開発者よりも優れて書くことができます。
ですので、私たちはEurekaをロボット開発自体の自動化への第一歩と見ていますね、そうですか?
ロボットを考えると、基本的にはコードの束です。
最終的には、単なるコーディングですよね?
例えば、私たちではなく、GPT-4や次に来るものがイテレーションを行うことができるのでしょうか?
それは魅力的な質問ですね。
それでは、シミュレーションで訓練された最初のAIエージェントとしてそれを説明するのは妥当でしょうか?
LLMによって指示された最初の種類のAIエージェントですね。
そうですね、最初のLLM訓練された器用なエージェントの概念ですね。
そして、ロボット工学には可能性がありますか?
はい、すみません、どうぞ。
Mambaというものを聞いたことがありますか?Mambaのアーキテクチャについての可能性のようなものがあるのでしょうか?
はい。
RoboSimsやVMAのようなロボット学習で、トランスフォーマーがMambaに置き換えられる可能性はありますか?
申し訳ありませんが、それは話題から外れるかもしれません。
はい。
アーキテクチャの部分に関しては、有用であるかもしれませんが、それがロボット研究の核心ではありません。
私たちはまだTransformerの潜在能力を十分に引き出していません。
ロボット工学にとって難しいのはデータですよね?
どのようにデータを取得しますか?
データはインターネットの動画から取得できます。先ほど説明しましたね。
シミュレーションのスケーリングアップからもデータを取得できます。
そしてシミュレーションに関しては、データはエージェント自体によって生成されるという特殊なものですね?
それはアクティブに収集されたデータと、インターネットから取得される可能性のあるデータということですね。
つまり、データがボトルネックなのです。
私たちは好きなアーキテクチャを使うことができます。
そして将来的にMambaがTransformerに置き換わる場合、私たちは切り替える必要がありますが、現時点ではそれが核心ではありません。
わかりました。
本当にありがとうございます。