見出し画像

Eureka - LLMで報酬を自動生成してロボットを学習させるAIエージェント

以下の記事が面白かったので、かるくまとめました。

Eureka! NVIDIA Research Breakthrough Puts New Spin on Robot Learning


1. Eureka

「NVIDIA Research」が開発した、ロボットに複雑なスキルを学習させることができる新しいAI エージェントは、ロボットハンドにペン回しを教えることができました。

これは、ロボットを学習させるための報酬アルゴリズムを自律的に作成する 「Eureka」のおかげで、ロボットが達成できるようになった30近くのタスクのうちの1つになります。引き出しやキャビネットを開ける、ボールを投げる、キャッチする、ハサミを使うなどの作業も覚えました。

公開された「Eureka」の研究には、論文とプロジェクトの AI アルゴリズムが含まれており、開発者は強化学習研究用の物理シミュレーション リファレンス アプリケーションである「NVIDIA Isaac Gym」で実験できます。「Isaac Gym」は、3Dツールとアプリケーションを構築するための開発プラットフォームである「NVIDIA Omniverse」上に構築されています。「Eureka」自体は「GPT-4」を利用しています。

2. AIがロボットを学習

同論文によると、ロボットの試行錯誤学習を可能にする「Eureka」¥が生成した報酬プログラムは、80%以上のタスクにおいて専門家が作成した報酬プログラムよりも優れたパフォーマンスを発揮するといいます。 これにより、ボットの平均パフォーマンスが 50% 以上向上します。

AIエージェントは「GPT-4」で強化学習のためにロボットに報酬プログラムを作成します。タスク固有のプロンプトや事前定義された報酬テンプレートは必要ありません。また、人間のフィードバックを容易に組み込んで、開発者のビジョンとより正確に一致する結果に対する報酬を改善します。

「Eureka」は、「Isaac Gym」で高速化されたシミュレーションを使用して、報酬候補の大規模なバッチの品質を迅速に評価し、より効率的な学習を行うことができます。

次に、「Eureka」は学習結果から主要な統計の概要を構築し、報酬関数の生成を改善するようにLLMに指示します。このようにして、AIは自己改善を行っています。四足歩行、二足歩行、クアローター、器用な手、協働ロボットアームなど、あらゆる種類のロボットに、あらゆる種類のタスクを実行するよう教えられています。

研究論文では、幅広い複雑な操作スキルを実証するためにロボットハンドを必要とするオープンソースの器用さベンチマークに基づいて、「Eureka」で学習された20のタスクの詳細な評価が提供されています。



この記事が気に入ったらサポートをしてみませんか?