見出し画像

ChatGPT搭載のロボット Figure 01 その機能と仕組み

先日、生成AIの次に来るビッグウェーブとしてロボットを紹介しました。そんな矢先に注目していたロボットの会社 Figureから大きな発表がありました。OpenAIと提携をしたFigureは、さっそくFigure 01にChatGPTを搭載してきたのです!本記事では、Figure 01のすごさと仕組みについて説明いたします。

なお、前回ロボットの今を紹介した記事はこちらになります。


Figure 01にChatGPTが搭載!

Figure社のロボットFigure 01にChatGPTが搭載されました!
リンゴ取って、周囲を理解し、会話し、状況を察して片付けまでしてくれます!

こちらは本家のFigureの直ポストではないですが、ChatGPT研究所さんが字幕を付けてくれているので内容が分かりやすいかと思います。

FigureとOpenAIが提携したのはつい2週間前。
これからどうなるのかと楽しみにしていたところ、こんなに早くChatGPTが搭載された精度が高いロボットの動きが見れるようになってしまうとは。

ちなみに2か月前はFigure 01がコーヒーを入れるという発表していました。こちらと比較することで進化のスピードを実感していただけるのではないでしょうか。

Figure 01ができること

こんなすごさを見せつけてくれたFigure 01ですが、どんな部分がすごいのか、分解してみていきましょう。
以下のXのツイートで解説されています。

今回、Figure 01は以下の機能を見せてくれました。

  • 視覚からの情報を説明する

  • 計画して行動する

  • 記憶を振り返る

  • 理由を説明する

  • 推論する

視覚から情報を説明する

「私はテーブルの中央にあるプレートの上の赤いリンゴとカップとプレートが入った水切りラックと、あなたが近くに立っていて、テーブルに手をのせているのが見えます。」

ChatGPTは、コンピュータービジョンを獲得しているので、画像情報から何があるのかということを理解できることはすでにご存じのとおりですね。ですので、この発言自体はそれほど驚くことでもないです。
ただ、「あなたが近くに」ということは自身の空間的位置座標と外界にある目標物との座標を取得できているということですね。
将来的にはこういうことができるだろうと私も思っていましたが、提携を発
表してから2週間足らずでここまでできているということが驚きでした。

計画して行動する

「何か食べ物もらえるかな?」
「もちろんです。」
と言って、リンゴを受け渡してくれます。

「何か食べ物もらえるかな?」と言われて、状況に照らし合わせて、「リンゴ」を選択し、その行動計画を立てて、実行しました。
この際にリンゴを取り上げて、持ち替えて、渡すという流れが非常にスムーズなんですね。
完全に実世界での座標を把握しつつ、自分の動きを予測し、さらにフィードバック、つまり動かそうとした手や指の関節がどこまで動いたのかまでもリアルタイムで把握して動作しているということが分かります。

記憶を振り返る

「このゴミを拾いながら、なぜ今の行動をしたのか説明してくれますか?」
「私はリンゴを渡しました。なぜならテーブル上にあって、あなたに渡せる食べ物はリンゴしかなかったからです。」

先ほど実行したことを忘れずに記憶されており、なぜそれをしたのかをりかいしていました。
さらにそれを説明しながらマルチタスクでゴミを拾っていました。
ゴミの形状はふわっとしたもので、どこを掴むといいのか予測がしにくいかと思いますが、とても自然に広いっていますね。

推論する

「今の状況に基づくと、あなたの目の前にある食器はどこに行くと思いますか?」
「テーブルの上にある、カップや皿などの食器は水切りラックに入ると思います。」

上記の推論はかなりの難しいのではないでしょうか?個人的には質問自体がちょっとあいまいかなと感じてしまいます。
しかし、Figure 01は今までのやり取りや流れから正しい回答を導き、その後実行していました。ここでも今の現状だけでなく、過去から今に至るまでのやり取りをしっかり把握できているということです。

Figure 01の仕組み

Figure 01の仕組み

上図がFigure 01の仕組みを表しています。
まず、入力、処理系統、出力の観点で見ていきましょう。

入力:
・speech-to-test
  テキストデータ(マイクへ入力された音声→テキストの変換後)
・on-board robot images
 画像(ロボットに搭載されているカメラ)

処理システム:
 
システムは3層になっています。
・OpenAI model
 OpenAIモデル 画像から常識的推論を行う
・Neural Network Policies
 ニューラルネットワークポリシー
 (入力画像とロボット動作を結びつけるアルゴリズム)
・Whole Body Controller
 ボディ全体のコントローラー
(安全にボディ全体のバランスを取る)

出力:
・text-to-speech
 音声(テキスト→音声)
・1khz joint torques
 動作

動作の流れ

①OpenAIモデルの処理
マイクからの音声がテキストに変換され、カメラからの画像とこの2つがOpenAIモデルとして入力されます。
これらを用いてOpenAIモデルが状況を把握し、受け答えの応答を返したり(テキスト→音声の出力)、どんな動作を行うかを決定します。決定した動作が②Neural Network Policiesへの入力となります。

②Neural Network Policies
OpenAIモデルからどんな動作を行うかの入力を受け取ります。OpenAIモデルからの入力だけではなく、カメラからの画像も直接入力として受け取り、それらを統合して、処理をします。

このニューラルネットワークは、Neural network visuomotor transformer policiesと呼ばれています。「visuomotor」は視覚(visuo)と運動(motor)の組み合わせを指し、ロボットが見たものを理解し、それに応じて手や指のような機械部分を動かすことを意味しています。つまり、これはロボットが視覚データを直接運動指令に変換するアルゴリズムを表します。

機械学習により訓練されたネットワークが画像を解釈し、具体的な物理的動作に変換します。これによりロボットは見たものに基づいて複雑な操作を行うことができます。

③ボディ全体のコントローラー
②からの出力により、手や足を動かしながらもボディ全体を安全でバランスを保ちながら動作します。

まとめ

大言壮語モデル(LLM)の進化は、言語による思考表現の可能性を開拓しました。
それを現実世界の物理的動作への応用をしたものが、Figure社のChatGPT搭載ロボット「Figure 01」です。

Figure 01は、言語理解と物理的動作の統合を通じて、日常生活の複雑なタスクを実行する能力を示しています。このロボットとAIの融合はまだ始まったばかりであり、現在の進化は将来の可能性を示す序章に過ぎません。

生成AIの速度と範囲で進化するロボット技術は、私たちの生活を根本から変える可能性を秘めています。今後さまざまなところで現れてくるだろう人手不足の問題大して大きな助けとなってくれることに期待をしています。

いいね!やフォローで、ぜひ応援よろしくお願いします!
励みになります!

また、X(旧Twitter)でAIについての雑談を不定期に行っておりますのでフォローをお願いいたします。

この記事が気に入ったらサポートをしてみませんか?