GoogleのDeepMindが公開した研究論文について議論しており、特にAlphaFoldとAlphaGoにおける彼らのAIの成果に焦点を当てています。注目されている論文は「Gato」と呼ばれ、Atariのプレイ、画像のキャプション付け、チャット、物理的な世界とのやり取りなど、さまざまなタスクが可能なマルチモーダルAIモデルを提案しています。ビデオでは、Gatoの画像キャプションとチャット機能について探求し、改善の可能性や実世界への応用に言及しています。他のAIモデルと比較してパラメータ数が少ないにも関わらず、Gatoはより広範なタスクと非伝統的な能力を提供しています。DeepMindの最近のリリースであるRoboCatは、Gatoのフレームワークの実用的な応用例であり、マルチモーダルAIモデルのさらなる開発と実装の可能性を示しています。
公開日:2023年6月29日
※動画を再生してから読むのがオススメです。
このビデオでは、基本的に昨年リリースされた研究論文について話し合う必要がありますが、AIの台頭以来、そのような研究論文はある意味で忘れられてしまったものの1つです。
つい最近まで、マルチモーダルAIモデルについて言及されることはありませんでしたが、ご存知のように、私たちが知っていること、私たちが可能だと考えていることを押し進めようとする特定の企業や研究チームが存在します。
何が可能かという点で、一貫してその可能性を押し広げてきた研究チームのひとつが、グーグルのディープマインドだ。
ディープマインドをご存じない方のために、彼らの業績について簡単に説明しよう。
DeepMindに詳しくないかもしれませんが、彼らはGoogleの一部門であり、人工知能の進化を示す新しい研究論文や研究結果を常に生み出している特定の研究チームです。
DeepMindは、他にも数え切れないほどの研究論文を発表しているが、主に2つのプロジェクトで注目されている。
ひとつはAlphaFoldで、タンパク質構造の3Dモデルを正確に予測することができ、生物学のほぼすべての分野の研究を加速させている。
そしてもちろんAlphaGoは、人間のプロ囲碁棋士を破った最初のコンピュータープログラムであり、囲碁の世界チャンピオンを破った最初のコンピュータープログラムであり、間違いなく史上最強の囲碁棋士である。
さて、なぜこの研究チームが、人間を打ち負かしたコンピューターというだけで高く評価されているのか不思議に思われるかもしれないが、囲碁はルールは単純だが、可能な手と構成が非常に多いボードゲームであることをご理解いただきたい。
簡単に説明すると、囲碁で可能な陣地の数は宇宙に存在する原子の数よりも多いと推定され、コンピュータが最善の手を評価し選択するのは困難なのだ。
アルファゴは囲碁の打ち方を学ぶ方法を見つけた。
今のところ、アルファゴは私たちが与えたあらゆる挑戦を打ち破っているが、世界の頂点に立つ誰かと対戦するまで、その真の強さはわからない。
少し立っていました。
そして、ディープマインドのアルファゴがクレイジーだったのは、その動きが時に型破りで、人間のプレイヤーには意外に見えたことだ。このAIはまるで考えているかのように振る舞い、これまで考えられなかったような新しい戦略を生み出したと人々は考えた。
もちろん、それはディープマインドの歴史に触れているに過ぎない。
しかし、このビデオで取り上げているのは、先に述べたように、昨年発表されたディープマインドの論文の一つである。
なぜこれを取り上げようと思ったかというと、このフレームワークが最近「ロボキャット」というプロジェクトで使われたからです。
この論文は「Gato」と呼ばれるもので、基本的にはミニAGI、あるいはAGIシステムの初期段階における最初の一瞥のようなものです。
要旨では、ディープマインドは、大規模な言語モデリングの進歩に触発され、テキスト出力の領域を超えた単一のジェネラリスト・エージェントを構築するために同様のアプローチを適用していると述べている。
我々がGatoと呼ぶこのエージェントは、マルチモーダル、マルチタスク、マルチエンボディメントのジェネラリストとして機能する。
同じネットワークが、アタリゲームをしたり、画像にキャプションを付けたり、チャットをしたり、本物のロボットアームでブロックを積み上げたり、その他いろいろなことができ、コンテキストに基づいて、テキストを出力するか、ジョイントトークをするか、ボタンを押すか、その他のトークンを出力するかを決定する。
このレポートでは、モデルとデータについて説明し、Gatoの現在の機能を記録する。
皆さんも知っての通り、ChatGPTは世界中で大流行しており、それによって他のAIモデルがある意味で影が薄れてしまっています。
そして、このフレームワークは、AIの群衆がより多く存在する今、本当に興味深く、取り上げる価値のあるフレームワークの一つだと思います。
つまり、Gatoは完全にマルチモーダルなAIモデルなのだ。
その意味をご存じない方のために簡単に説明すると、GatoはChatGPTよりも多くのことができるということです。
ChatGPTは、単にテキストベースのAIであり、単一または少数のユーザーからのプロンプトに基づいて、長いまとまったテキストを生成することができます。
しかし、Gatoの場合は、ユーザーの入力に基づいて、さまざまなアウトプットを生成します。
つまり、さまざまなモダリティに対応できるということだ。
先に述べたように、この論文が発表された1年後、MicrosoftのVisual ChatGPTやMicrosoftのJarvisなど、より興味深いマルチモーダルAIが多く取り組まれています。それは非常に興味深いものでした。
しかし、JarvisからGatoに目を向けると、その可能性は本当に信じられないほど大きい。
Gatoは、他のAI(例:MicrosoftのVisual ChatGPTなど)とは異なり、画像、ビデオ、テキストを含む一般的なマルチモーダルAIとは異なり、物理世界に適用することができます。つまり、この種のAIシステムがさらに開発されれば、現実世界への影響を持つ可能性があります。
そこで、Gatoの最も印象的な能力をいくつか取り上げることにする。
その第一は、画像にキャプションを付ける機能だ。
GPT-4の前に、彼らは後にマルチモーダル機能をリリースする予定だと話していました。
いつリリースされるかはまだわかりませんが、少なくとも年内にはリリースされるはずです。
そして、これには画像を記述する機能が含まれていることもわかっています。
この論文は2022年に発表されましたが、ここで見ることができるのは10枚の画像です。
ここに見える画像には、それぞれの画像の下に3つの異なるキャプションが書かれている。
つまり、カラフルな陶器のおもちゃがリビングルームの床に置かれている、3つの異なる色が床に堆積しているリビングルームがある、赤い長いラグとテレビと絵がある部屋がある、と書かれている。
ここには他にもいくつかの画像がありますし、この論文では実際に思ってもいなかったAIができることについてのインスタンスにも進展があるので、非常に興味深いと思います。
また、これらの画像に沿って、キャプションがかなり正確であることもわかります。
食べ物の皿を持っているひげ面の男、バナナを持って写真を撮っている男、ケーキを持っている男。
そして道路の真ん中に大きなトラック。
それから、野球選手が野球場の上でボールを投げる姿があります。
それから、サーファーが海から離れて波に乗っています。ウェットスーツを着たサーファーが波に乗っています。
それから、白い馬が白と青の銀の花婿と一緒にいます。
このAIがこれらの問題をどう処理するかは興味深い。
さて、ここで重要なのは、この画像キャプション付けがそれほど優れていないと思う人もいるかもしれないが、この研究論文では、真の能力を紹介したかったので、特にどの回答も選ばないことにしたことを理解してほしい。
さて、人間のフィードバックによる強化学習によって、この種のAIは信じられないほど良くなる可能性があることを理解してほしい。
例えば、これらの3つのキャプションをすべて出力したときに、人間が最も良いものを選び、人工知能にこれが良い選択だったというトークンを与えることができる。
そうやって時間をかけて、AIシステムはどんどん良くなっていく。
それから、もちろん面白い機能もある。
正直なところ、なぜGatoがグーグルからリリースされなかったのか、あるいは本格的な製品として開発されなかったのか、私にはまったくわからない。
ここで見ることができるのは、Gatoによるチャット機能だ。
これがGatoとの雑談というわけだ: チャットボットになるよう促されたときのGatoとの対話。
通常、Gatoは適切な返答を返しますが、表面的であったり、事実と異なっていたりすることが多く、さらなるスケーリングによって改善される可能性があります。
また、別のページでも同じプロンプトを使用しています。
この会話調のトーンは非常に興味深いと思います。ユーザーが「ブラックホールの基礎を説明してください」と言い、人工知能が「なんだかこのシンプルな質問に答えようとしているんです」と述べています。
ユーザーは、確かに、どうぞ、とコメントを返す。
そして、ブラックホールについてかなりまともな説明をしてくれますが、もちろん、幻覚が見える場合もあります。
フランスの首都は何ですか?と言われた時、わかります。
と聞かれたとき、彼らはマルセイユと答えるが、もちろんそれはフランスの首都ではない。
さて、このAIはどのようなタスクでも特に印象的なものではない、とあなたは思うかもしれないが、あるカテゴリーでははるかに優れたAIがあるのに、なぜ人々はこのAIについて話すのだろうか?
さて、この種のAIモデルは、ChatGPTのように多くのパラメータを使用しないことを理解する必要があります。
GPT-3の場合、このモデルは約12億のパラメーターしか使っていない。
つまり、このAIは、完全な深みには欠けるかもしれないが、より幅広いタスクをこなせるし、奇妙なタスクもこなせるということだ。
例えば、アタリのようなビデオゲームをプレイするといったことは、他のAIにはできないことです。
覚えておいてほしいのは、この種の論文のゴールは、必要なタスクのほとんどを処理できるものを作ることだったということだ。
そして、これらは単純な実験や研究主導の研究に過ぎないと思うかもしれないが、そうではない。
数日前に発表されたディープマインドのRoboCatは、GPT-3のフレームワークが多くの人が必要とする可能性のある実世界のアプリケーションで使用できることを証明している。
このことは、このようなAIモデルがベースとなり、やがて時間の経過とともに、このような大規模なマルチモーダルモデルの上に構築され、実世界に実装されるようになることを示している。