この動画では、Google DeepMindとスタンフォード大学の研究者により開発されたMobile ALOHAというロボットが紹介されています。このロボットは、3コースの食事を作るなど、非常に正確な動きで多様なタスクを自律的に実行できます。人間の動作を模倣し、約50例のタスクを学習する能力を持っており、重い物の扱いや自己駆動型の運動制御も可能です。ロボットはテレオペレーションと自律モードの両方を備え、料理や掃除などの日常タスクを自律的に行うことができるため、将来的には非常に有用であると期待されています。また、$32,000という比較的安価な価格設定も注目されています。
公開日:2024年1月5日
※動画を再生してから読むのがオススメです。
私たちは本当に信じられないものを手に入れた。
Google DeepMindとスタンフォード大学の学生研究者たちが素晴らしいものを作りました。
Mobile ALOHAと呼ばれるこのロボットは、近未来に何が起こるかを見せてくれる、本当に信じられないようなロボットなのです。
ですから、ここには彼らが作ったロボットがあります。
これは彼らのページで紹介されているデモの一部で、このロボットが3コースの料理を作るのに使われているのがわかります。
さて、このビデオでは後で詳しく説明されることがたくさんありますので、注意を払う必要があります。なぜなら、これは非常に魅力的なプロジェクトであり、それがどのようにして機敏さとこれらの動きを強調しているかを示しているからです。多くの人々が想定していたよりも正確です。
この最初のデモはTwitterに投稿され、非常に明らかな理由でインターネットで話題になりました。
このデモがインターネットを席巻した主な理由のひとつは、現在のところロボットが多くの仕事を、特にこの規模で、人間しかできないと思われているような多くの仕事を実際に行うことができるという安さの点で、実際にはできていないという事実によるものだ。
そして、私が言っていることを信じてください。ビデオの後半では、デモがますます激しく、驚くべきものになります。
では、実際にチームとこのプロジェクト全体を見て、どのようにすべてが動作するのかを見てみましょう。
これがチームです。
スタンフォード大学で航空ロボット工学の博士号を取得し、Google DeepMindの学生研究者でもあるジーペン・フー。
スタンフォード大学の博士課程の学生で、Google DeepMindの学生研究者であるトニー・Z。
そして、スタンフォード大学のCS学部教授で、Google DeepMindの研究科学者であるチェルシー・フィンです。
これが、この研究を支えている人たちです。
さて、まずは要約を読む必要があります。要約は、彼らがすべてをどのように行ったかを文書化した研究論文の導入部分です。
つまり、基本的には、模倣学習(ロボットが人間の作業を見て学習すること)は、物を拾うようなテーブルの上で行う作業には適しているが、動き回ったり体全体を使ったりする必要がある作業には十分ではない、というところから始まる。
このプロジェクトでは、Mobile ALOHAと呼ばれるシステムを作りました。これは、古いシステムALOHAのアップグレード版のようなものです。
この新しいシステムは動き回ることができ、全身をコントロールできるように設計されているため、より汎用性が高くなっています。
私たちはMobile ALOHAを使って人間の動作を模倣させ、データを収集します。
そして、教師あり行動クローニングと呼ばれるプロセスを通じて、自らタスクを実行するように教えます。
そして、私たちは後で論文で詳しく説明する「共同学習」という方法を使って、その学習を改善します。
ここでは、より静的な古いALOHAデータから、新しいタスクとモバイル・タスクの両方を学習する。
そしてこのアプローチは、各タスクの約50の例を見て学習することで、非常に効果的です。
ロボットは、エビを調理したり、キャビネットを開けたり、エレベーターを使ったり、皿洗いをしたりといった複雑なことが本当に上手になる。
実際、この方法を用いると、ロボットがこれらのタスクを正しく完了する能力は90%まで上がる。それでは、ロボットが自律的にこなしたタスクのいくつかを見てみよう。
これは、いくつかのタスクのデモンストレーションです。
さらにすごいのは、これが100%自律走行だということです。
このビデオの後半で、テレオペモードとその仕組みについてお話しします。
しかしここでは、このロボットが日常の仕事を完全に一人でこなしているのがわかるだろう。
さて、私たちは他のロボットからもこのような例を見ました。例えば、パルムイのデモンストレーションでは、そこにロボットがいました。
しかし、このロボットの方がはるかに興味をそそられるのは、私たちが手だけで可能だとしか思っていなかった特定の作業を、このロボットが可能にしているからだ。
そして、そのようなタスクの多くをこなすことができたし、中にはこの椅子を使ったタスクのように、元のデータセットになかったものもあった。
これは間違いなく魅力的なものです。実際、ここで見たビデオでは、タスクに干渉があったと思います。つまり、誰かがロボットに物を投げたり、中に物を投げたりしていたのです。
それでもロボットはタスクを完了することができた。
このレベルでロボットがエビを調理できるなんて、私に言わせればかなりクレイジーです。
このロボットについて知っておくべきことがいくつかある。
まずひとつは、このロボットの動きで、実際に人が歩くのと同じくらいの速さで動くことができる。
論文では、かなりまともに動けると話している。
それに加えて、スポットのような重いものを扱っても安定しています。
つまり、このロボットの安定性は非常に効果的なのです。
そのため、転倒することはありません。
さらに、そのアームと移動するベースを同時に制御することができます。
このロボットのすごいところは、セルフパワーで動くことです。
バッテリーもコンピューターも内蔵している。
そして移動部分には、倉庫で使用されるトレーサーと呼ばれる移動式ベースを選んだ。
高速で、重い荷物も運べ、小さな障害物や斜面も乗り越えられる。
そして、他の類似製品よりも安価です。
そして、ロボットに人が接続することで操縦できるように設計されている。
こうすることで、人はロボットの腕を使いながらロボットを動かすことができ、キャビネットを開けるような作業に役立つことは間違いない。
また、ロボットの腕にはカメラがあり、前方には視界を確保するためのカメラがあります。
そして、その動きを感じ、記録することができる。
さて、先ほども言ったように、これは基本的にオリジナルのALOHAのバージョン2です。
このロボットがどれだけ正確な動作ができるかがわかるだろう。
つまり、ロボットの中にラムスティックを入れることができ、この箱を切り、ナイフで開けることができる。
そして、非常に精密なカッティングを施し、パッケージを開けることができる。
それから、それを取り出して、それを適用することができます。
自分が何を見ているのかよくわからない。
それは自転車のギアだとわかっていますし、それは非常に、非常に、非常に印象的なものです。ここでも見られるように、これはテレオペ・モードです。
基本的に、テレオペ・モードとは、もう少し詳しくお話ししますが、人間が別のアームを使ってロボットを操作することです。
つまり、基本的には人間がインプットを与えることで、ロボットがそれを行うことができるのだ。
テレオペが優れているのは、基本的に非常に正確な方法でロボットを制御できることです。なぜ優れているかというと、ロボットに適切なデータセットを与えたり、適切な方法でプログラムしたりすれば、ロボットの能力を正確に把握できるからです。
ですから、VRテレオペ、自律対VRテレオペ、または標準のテレオペの違いです。さまざまな方法で行うことができます。
VRでできますし、標準でできます。
もし違いが分からないなら、例えば、これはPollen RoboticsのVRテレオペレーションで、ここではVR内の人がそのロボットを制御できるということです。
テレオペレーション、またはリモートオペレーションとは、システムや機械を遠隔地から操作することを指します。これは主にロボットや移動ロボットに関連していますが、さまざまなシステムに適用することができます。
もちろん、ロボット工学の文脈では、遠隔操作とは、人間のオペレーターが離れたところからロボットをコントロールすることであり、このコントロールは、無線リンク、衛星接続、セレンネットワークなど、さまざまな通信チャネルを通じて実現できる。
この制御は、無線リンクや衛星接続、セレン・ネットワークなど、さまざまな通信チャネルを通じて実現することができる。また、関係する距離は、部屋をまたいだり、大陸をまたいだりすることもあり、人間が物理的にその場にいることが危険であったり、現実的でなかったりする状況で特に有用である。
例えば、遠隔操作ロボットは、捜索救助活動、原子力産業、製薬産業、メンテナンス、研究分野など、現場での操作が人を危険にさらすような場所や、清潔な環境を維持する必要がある場所で使用されている。
その他の一般的な用途としては、宇宙探査、水中車両、林業、鉱業、農業、監視、救助、外科手術などがある。
これはもちろんVRテレオペですが、それは非常に魅力的なものです。
しかし実際の論文では、そこにある物理的な遠隔操作の一部を見ることができる。
このロボットでトイレを掃除しているのがわかるだろう。
こんなことができるのに、何のためにこんなことをするのか、と思う人もいるかもしれない。
しかし、今述べたように、これにはさまざまな用途がある。
そしてもちろん、ロボットが実際に何ができるのかを見ることもできる。
一度自律的に訓練すれば、そのロボットに同じような作業をさせることができる。
ですから、ロボットの器用さがいかにクレイジーになってきているか、そして将来、ロボットが特定の作業においてどれほど効果的なものになるかを示してくれていると思います。
さて、これはロボットを自宅で使用するデモです。
ここでもまた、テレオペシステムが使われている。
そして覚えておいてください、彼らはロボットを制御するための2つの方法を持っています。
彼らはテレオペシステムと自律システムを持っています。
ここにあるように、ロボットは正直なところ、思いつく限りのあらゆる作業をこなすことができる。
多くのこのようなものを見て、そして考える時、ロボットには手がないと思いますよね。
ロボットには手がない。
例えば、3コースの食事を作ってくれることはできません。
最初に見たように、手をコントロールすることができないのです。
速さが足りない。
迅速さが足りない。
しかし、もちろん知っておくべきこともある。
これらのクリップのいくつかは、どれがどれなのか正確にはわかりませんが、左側の隅か右側の隅、どちらか一方に、どれぐらいスピードアップしているかが書いてあります。
なぜなら、時には、このクリップの分析が終わったら、約2分でこれらのロボットのリアルタイムの速度をお見せしますが、それは多くのことを正直に制御するのに非常に効果的です。
私が本当に面白いと思ったことのひとつは、このロボットが実は人間の手の形をしていないということです。
それは2つの爪のような形をしています。カニのような感じですね。
そして、100%完全に人間的なものではなく、非常に効果的な環境との相互作用の方法がどれだけたくさんあるかを示しているんだ。
これは非常に魅力的だと思ったものです。なぜなら、人間の手が最高だと主張する人もいるからです。
彼らは最も器用です。
握力は他の追随を許さない。
そう主張することもできるだろう。
しかし、この種のロボットを使えば、間違いなく多くのことを成し遂げることができる。
これは非常に魅力的なものですし、それについても、それをジッパーで閉めることができることはかなり難しいことです。人間にとっても難しいことです。
それはかなり難しいことだと私は主張します。
ですから、この製品の自律性についても見ていく必要があります。
というのも、このプロジェクトは、正しくスケールアップすれば、間違いなくさまざまなことに応用できるものになると思うからだ。
では、このクリップの続きを見てみましょう。
そして、実際の自律走行について、リアルタイムでお見せしましょう。
リアルタイムの自律タスクをいくつか見てみましょう。
これはもちろん、エビを調理するロボットのリアルタイムの自律タスクです。
もちろん、それほど速くはありませんが、他のロボットや以前の世代のタスクに比べれば、それほど骨の折れる作業ではありません。
人間の方がずっと速いと言う人もいるだろうが、私がいつも言っているように、これは常に発展途上なのだ。
私たちが目にしているのは、これらのロボットの絶え間ない進化と進歩なのだ。
今のところは非常に速くはありませんが、年々、月々、日々と研究者やさまざまな学生がこの業界に取り組んでいく中で、もっと速くするためのより効率的な方法が見つかるでしょう。それによって、私たちの好みに合わないほど速いロボットが生まれることになるでしょう。
だから、このロボットが自律的に行えたタスクにはさまざまなものがあり、他のロボットやこのロボットが成功裏に達成できた他のタスクがどんなものなのか、見てみたいものだ。
そして、このロボットがあるタスクをいかに効果的にこなすかに驚いているのは私だけではないはずだ。
ここでは、押し車のタスクがあります。もちろん、これは完全に自律的で、リアルタイムです。
ですから、実際の速さがお分かりいただけると思います。
これをお見せしたかったのは、単に「すごい、このロボットはすごい」と言うのではなく、透明性を確保したかったからです。
それは確かに驚くべきことですが、現在の状況を知っておくことは重要です。この速さでも、かなり印象的だと思います。
というのも、もっと速くできる人間もいるかもしれませんが、それでもこれは、タスクを効率的にこなすだけでなく、非常に正確なグリップでロボットをコントロールするのに非常に効果的だと思われるからです。
それから、このロボットについて言えることは、最初の3つの椅子で訓練しただけで、最後の2つの椅子はデータの外挿から外れているということです。
そして、もちろん、ここにもこれがあります。私はTwitterで興味深い例があったのですが、残念ながら見つけることができませんでした。
しかし、そのビデオでは、誰かが鍋の中に何かを入れたり、鍋を何度も移動させたりという、敵対的な妨害が実際に見られました。
でもこれは、ある日家に帰ったら、ロボットが鍋の中に入っていた。
そして、あなたのロボットはすべてを片付けることができました。
標準的なルンバ・ロボットのように、ただ滑ってホコリを拾い集めるのではなく、キッチンでもどこでも動き回り、服をたたんだり、荷物を移動させたりすることができる、本物の行動可能なロボットなのだ。
私はこのような技術に注目すべきだと思います。それは魅力的なだけでなく、部屋にいる象がいると思います。
最近、自律型ロボットを見る際に多くの人々が心配していることの一つは、このロボットが人々の仕事を奪ってしまうのかどうかです。例えば、ここでリアルタイムでこのフライパンをすすいでいるロボットが見えますが、それについてです。
というのも、もちろん、ご存知のように、近い将来、コンピューター上のどのような作業も、最終的にはAIエージェントによって自動化される可能性があるからだ。
しかし、ロボット工学の議論は、ChatGPTのようなソフトウェアの進歩に比べると、かなり遅いものになるだろうと、以前から多くの人が言っていたことです。
しかし、このようなビデオや、スタンフォード大学やGoogle DeepMindのこのようなプロジェクトは、このレベルの研究が行われている限り、ロボットがそれほど遅れているわけではないことを示しています。
そしてもちろん、ここでは完全に自律的に、リアルタイムで、ロボットがここにやってきて、もちろんこれを拭き取ることができるのを見ることができる。
私が見てきた限り、世界中でロボット工学の研究が増えていることは間違いありません。
そして、私は2024年に研究開発の素晴らしいレベルを得ると思います。それは学生だけでなく、企業だけでなく、実際には世界中で行われている多くのことによるものです。
例えば、彼らは実際にこのプロジェクトをオープンソース化した。
そして、彼らが話したことの中で、本当に信じられないようなことがひとつある。
わずか32,000ドルで手に入る。
一般の人にとっては、3万2000ドルは多額のお金だと思うかもしれませんが、それは正しいと言えます。
しかし、他のヒューマノイド・ロボットの多くは、基本的なことができるにもかかわらず、高額なのだ。
私は6桁の数字、中間の6桁の数字、約20万ドルなどを指しています。それは、場所によっては、スーパーカーや中規模の家族向けの住宅の価格です。
それは間違いなく、人々が買えるようなものではありません。
でも、もしオープンソースのものがあって、人々がそれをもっと安く、もっと安く作る方法を見つけ出すことができれば、テクノロジーがそうであったように、つまり、振り返ってみれば、テレビがどれだけ巨大で、コンピューターがどれだけ巨大で、それらがどれだけ高価で遅かったかを思い出すことができる。
軌道は確かに明確になったと思います。
また、共同トレーニングについてもお話ししたいと思います。
共同トレーニングとは、2冊の料理本を使って料理を教えるようなものです。
1つのレシピ本には基本的な料理のレシピがあり、もう1つのレシピ本にはキッチン内を移動してさまざまな家電を使うような複雑な料理のレシピがあります。
さて、Mobile ALOHAプロジェクトでは、共同トレーニングとは、ロボットが2つの例や料理本から学ぶことを意味する。
最初のセットは、片手で卵を割りながらもう一方の手でボウルをかき混ぜるというような、両手を同時に使う必要がある作業をロボットが行う方法を示している。
しかし、これらの作業は動き回ることなく、1つの場所で行われる。
さて、2つ目の例では、冷蔵庫に食材を取りに行くなど、部屋の別の場所でロボットが動き回り、タスクをこなす方法を教える。
そして、調理のためにコンロに移動する。両方のセットから学習することで、ロボットは手の協調と移動の両方を必要とするタスクが得意になる。
完全な食事を作るように、材料を取ってきて、準備して、コンロで調理する必要があるようなものです。
このようにすることで、ロボットはより熟練し、1つの例だけから学んだ場合よりも複雑なタスクをこなすことができます。
何度も何度も見てきたように、共同トレーニングは共同トレーニングを行わない場合よりも優れています。
これはまた、この素晴らしいプロジェクトを行ったチームの一員であるチェルシー・フィンからのツイートであり、$32,000(周辺機器を含む)というコストでしかもすべての周辺機器を含んでいると話しています。
そして、彼らはそれがどれだけ能力があるかに驚いていました。
もちろん、自分で作るためのリンクも残しています。
さて、重要な話題として結論、制約、そして将来の方向性についても話しましょう。
要するに、私は論文の結論を読み、簡単に言えば、このプロジェクトはキッチンで人間のように複雑なタスクを行うことができるロボットを作ることに関するものです。
そして、ロボットシステムは、もちろん、既存のALOHAシステムの上に構築されました。
そして、わずか20から50のデモンストレーションでこれらの多くのタスクを非常にうまくこなし、また$32,000未満のコストで実現しました。
そして、誰でも自由に使用できるようになっています。
ただし、改善したいと思っていることもあります。
たとえば、ロボットは一部のスペースでやや大きく、オーブンの使用などのタスクに対して十分に高い位置や低い位置に手が届かないことがあります。
さて、もちろん、私たちの家には異なるスペースやサイズがあります。
ですから、家庭用の大規模なロボットには、できるだけ小さくなるようにしたいです。そして、できるだけ多くの自由度を持たせることが望ましいです。それによって、ほとんどの人間が掴むことができないものを掴むことができ、ほとんどの人間が歩くことができない場所でも歩くことができるようになります。
そして、私たちはできるだけ多くの自由度を持つことを望んでいます。それによって、できるだけ広範な場所で作業し、ほとんどの人間が掴むことができないものを掴み、ほとんどの人間が歩くことができない場所でも歩くことができるようになります。
彼らはまた、このロボットをより小さくする計画も立てています。それが必要なことですし、その腕にもっと広い動きの範囲を与える予定です。それは私たちが期待していることです。
現在、ソフトウェアの面では、ロボットは現在、専門家のユーザーが示したタスクからのみ学習していますが、チームはこれを改善し、ロボットが完璧でない例を含むさまざまな例から学習できるようにしたいと考えています。
そして、研究論文では、平均的なユーザーがわずか5つの例または5つのトレーニングランで実際に専門家になることができることを示しています。
具体的な指標はわかりませんが、それほど時間はかかりませんでした。
私はこのプロジェクト、2024年のスタートにおいて、ロボティクスの未来と、規模で行われることに非常に良い展望だと思います。
つまり、もし3人の学生、もちろん、非常に非常に賢くて能力のある学生がこれを作り出せるのであれば、大企業の300人のチームは何ができるのでしょうか?
つまり、もし人々がこのような小規模なスケールでこれを行うことができるのであれば、より大規模なスケールで何が利用可能になるのでしょうか?
そして、オープンソースであるという事実は、これが再びロボティクスの基本レベルの基準を引き上げることを意味します。
もしこれが興味深いと思われる場合は、教えてください。
これについてさらに詳しく見てみますか?
すべてのリンクは説明欄にあります。
そして、ロボットに興奮していますか?自律的なタスクをこなすことができるものもありますが、それによって私たちの仕事が一部奪われるかもしれませんが、同時に私たちの生活をより簡単にすることができるでしょうか?