見出し画像

【Gato: マルチモーダルAIの未来】英語解説を日本語で読む【2023年6月29日|@TheAIGRID】

GoogleのDeepMindが公開した研究論文について議論しており、特にAlphaFoldとAlphaGoにおける彼らのAIの成果に焦点を当てています。注目されている論文は「Gato」と呼ばれ、Atariのプレイ、画像のキャプション付け、チャット、物理的な世界とのやり取りなど、さまざまなタスクが可能なマルチモーダルAIモデルを提案しています。ビデオでは、Gatoの画像キャプションとチャット機能について探求し、改善の可能性や実世界への応用に言及しています。他のAIモデルと比較してパラメータ数が少ないにも関わらず、Gatoはより広範なタスクと非伝統的な能力を提供しています。DeepMindの最近のリリースであるRoboCatは、Gatoのフレームワークの実用的な応用例であり、マルチモーダルAIモデルのさらなる開発と実装の可能性を示しています。
公開日:2023年6月29日
※動画を再生してから読むのがオススメです。


In this video, we need to discuss a research paper that was essentially released last year, but it was one of those research papers that, since the rise of AI, has been somewhat forgotten.

このビデオでは、基本的に昨年リリースされた研究論文について話し合う必要がありますが、AIの台頭以来、そのような研究論文はある意味で忘れられてしまったものの1つです。

Now, up until recently, there was not really the mention of multimodal AI models, but as you do know, there are certain companies and research teams out there that do try to push the needle on what we do know and what we think is capable.

つい最近まで、マルチモーダルAIモデルについて言及されることはありませんでしたが、ご存知のように、私たちが知っていること、私たちが可能だと考えていることを押し進めようとする特定の企業や研究チームが存在します。

Now, one research team that has consistently pushed the needle in terms of what is possible is Google's DeepMind.

何が可能かという点で、一貫してその可能性を押し広げてきた研究チームのひとつが、グーグルのディープマインドだ。

And if you're not familiar with this team, well, let me just gloss over some of their accomplishments.

ディープマインドをご存じない方のために、彼らの業績について簡単に説明しよう。

Now, you might not be familiar with DeepMind, but they are a division of Google, a specific research team that do constantly produce new research papers, new studies that showcase just how far we can go with artificial intelligence.

DeepMindに詳しくないかもしれませんが、彼らはGoogleの一部門であり、人工知能の進化を示す新しい研究論文や研究結果を常に生み出している特定の研究チームです。

Now, DeepMind is mainly noteworthy for two main projects, amongst the other countless other research papers that they've done.

DeepMindは、他にも数え切れないほどの研究論文を発表しているが、主に2つのプロジェクトで注目されている。

The first being AlphaFold, which can accurately predict 3D models of protein structures and is accelerating research in nearly every field of biology.

ひとつはAlphaFoldで、タンパク質構造の3Dモデルを正確に予測することができ、生物学のほぼすべての分野の研究を加速させている。

And of course, AlphaGo, which was the first computer program to defeat a professional human Go player, the first to defeat a Go world champion, and is arguably the strongest Go player in history.

そしてもちろんAlphaGoは、人間のプロ囲碁棋士を破った最初のコンピュータープログラムであり、囲碁の世界チャンピオンを破った最初のコンピュータープログラムであり、間違いなく史上最強の囲碁棋士である。

Now, if you're wondering why this research team is being highly regarded just because of a computer that was able to beat a human, understand that Go is a board game with simple rules but an incredibly large number of possible moves and configurations.

さて、なぜこの研究チームが、人間を打ち負かしたコンピューターというだけで高く評価されているのか不思議に思われるかもしれないが、囲碁はルールは単純だが、可能な手と構成が非常に多いボードゲームであることをご理解いただきたい。

To boil things down, the number of possible positions in Go is estimated to be more than the number of atoms in the universe, which makes it difficult for computers to evaluate and choose the best move.

簡単に説明すると、囲碁で可能な陣地の数は宇宙に存在する原子の数よりも多いと推定され、コンピュータが最善の手を評価し選択するのは困難なのだ。

Alphago found a way to learn how to play Go.

アルファゴは囲碁の打ち方を学ぶ方法を見つけた。

So far, Alphago has beaten every challenge we've given it, but we won't know its true strength until we play somebody who is at the top of the world.

今のところ、アルファゴは私たちが与えたあらゆる挑戦を打ち破っているが、世界の頂点に立つ誰かと対戦するまで、その真の強さはわからない。

Slightly stood on.

少し立っていました。

And what was crazy about DeepMind's Alphago is that the moves sometimes appeared unconventional and surprising to human players, which made people think that this AI behaved as if it was thinking and created new strategies that hadn't been considered before.

そして、ディープマインドのアルファゴがクレイジーだったのは、その動きが時に型破りで、人間のプレイヤーには意外に見えたことだ。このAIはまるで考えているかのように振る舞い、これまで考えられなかったような新しい戦略を生み出したと人々は考えた。

Of course, that just glosses over DeepMind's history.

もちろん、それはディープマインドの歴史に触れているに過ぎない。

But what this video is about is one of DeepMind's papers that, like we stated before, was released last year.

しかし、このビデオで取り上げているのは、先に述べたように、昨年発表されたディープマインドの論文の一つである。

Now, if you're wondering why we're deciding to cover this, it's because this framework was recently used in a recent project called Robocat.

なぜこれを取り上げようと思ったかというと、このフレームワークが最近「ロボキャット」というプロジェクトで使われたからです。

Now, what this paper is, is it's called Gato, and essentially, it's quite simply a mini AGI, or one of the first glances at what an AGI system could look like in its very early stages.

この論文は「Gato」と呼ばれるもので、基本的にはミニAGI、あるいはAGIシステムの初期段階における最初の一瞥のようなものです。

So, in the abstract, DeepMind state that inspired by progress in large-scale language modeling, we apply a similar approach towards building a single generalist agent beyond the realm of text outputs.

要旨では、ディープマインドは、大規模な言語モデリングの進歩に触発され、テキスト出力の領域を超えた単一のジェネラリスト・エージェントを構築するために同様のアプローチを適用していると述べている。

The agent, which we refer to as Gato, works as a multimodal, multi-task, multi-embodiment generalist.

我々がGatoと呼ぶこのエージェントは、マルチモーダル、マルチタスク、マルチエンボディメントのジェネラリストとして機能する。

The same network can play Atari, caption images, chat, stack blocks with real robot arms, and much, much more, deciding based on its context whether to output text, joint talks, button presses, or other tokens.

同じネットワークが、アタリゲームをしたり、画像にキャプションを付けたり、チャットをしたり、本物のロボットアームでブロックを積み上げたり、その他いろいろなことができ、コンテキストに基づいて、テキストを出力するか、ジョイントトークをするか、ボタンを押すか、その他のトークンを出力するかを決定する。

In this report, we describe the model and the data and document the current capabilities of Gato.

このレポートでは、モデルとデータについて説明し、Gatoの現在の機能を記録する。

As many of you know, ChatGPT has taken the world by storm, and in doing so, it's kind of overshadowed some of the other AI models that were released/being researched.

皆さんも知っての通り、ChatGPTは世界中で大流行しており、それによって他のAIモデルがある意味で影が薄れてしまっています。

And this is one of the frameworks that I really do think is interesting and worth covering now when there's much more of an AI crowd.

そして、このフレームワークは、AIの群衆がより多く存在する今、本当に興味深く、取り上げる価値のあるフレームワークの一つだと思います。

So essentially, Gato is an AI model that is completely multimodal.

つまり、Gatoは完全にマルチモーダルなAIモデルなのだ。

Now, for those of you who don't know what that means, that just essentially means that it can do more than ChatGPT.

その意味をご存じない方のために簡単に説明すると、GatoはChatGPTよりも多くのことができるということです。

You see, ChatGPT is simply a text-based AI that can generate long pieces of coherent text based on a single or small user prompt.

ChatGPTは、単にテキストベースのAIであり、単一または少数のユーザーからのプロンプトに基づいて、長いまとまったテキストを生成することができます。

But with Gato, essentially what you have is you have varying different outputs based on the user's input.

しかし、Gatoの場合は、ユーザーの入力に基づいて、さまざまなアウトプットを生成します。

And this means it can handle many different modalities.

つまり、さまざまなモダリティに対応できるということだ。

Like it stated before, a year after this paper was released, there have been a lot more interesting multimodal AIs that have been worked on, such as Microsoft's Visual ChatGPT and Microsoft's Jarvis, which was very, very interesting because it essentially was a multimodal AI.

先に述べたように、この論文が発表された1年後、MicrosoftのVisual ChatGPTやMicrosoftのJarvisなど、より興味深いマルチモーダルAIが多く取り組まれています。それは非常に興味深いものでした。

But moving on from Jarvis, if we look at Gato, the possibilities here are truly incredible.

しかし、JarvisからGatoに目を向けると、その可能性は本当に信じられないほど大きい。

You see, what makes Gato different from other AIs, such as Microsoft's Visual ChatGPT and other AIs that are also generally multimodal, including images, video, and text, is that Gato can be applied to the physical world, which means that this kind of AI system, if developed more so, can have real-world implications.

Gatoは、他のAI(例:MicrosoftのVisual ChatGPTなど)とは異なり、画像、ビデオ、テキストを含む一般的なマルチモーダルAIとは異なり、物理世界に適用することができます。つまり、この種のAIシステムがさらに開発されれば、現実世界への影響を持つ可能性があります。

So we're going to cover some of Gato's most impressive capabilities.

そこで、Gatoの最も印象的な能力をいくつか取り上げることにする。

Number one is going to be the ability to caption images.

その第一は、画像にキャプションを付ける機能だ。

Now, as you may know, before GPT-4, they did talk about how they're going to release their multimodal features later on, sometime in the year.

GPT-4の前に、彼らは後にマルチモーダル機能をリリースする予定だと話していました。

We aren't sure when this is scheduled for, but we can predict that at least by the end of the year, this should be released.

いつリリースされるかはまだわかりませんが、少なくとも年内にはリリースされるはずです。

And we do know that this does include the ability to describe images.

そして、これには画像を記述する機能が含まれていることもわかっています。

Now, remember, this paper was released in 2022, but what we can see here is a bunch of images, 10 to be exact.

この論文は2022年に発表されましたが、ここで見ることができるのは10枚の画像です。

The image right here that we can see says three different captions under each different image.

ここに見える画像には、それぞれの画像の下に3つの異なるキャプションが書かれている。

So it states that the colorful ceramic toys are on the living room floor, a living room with three different color deposits on the floor, and a room with a long red rug, a TV, and some pictures.

つまり、カラフルな陶器のおもちゃがリビングルームの床に置かれている、3つの異なる色が床に堆積しているリビングルームがある、赤い長いラグとテレビと絵がある部屋がある、と書かれている。

There are also some other images right here, and I do think that this is very interesting because further on in the paper, we do get to instances where this AI can do things which we really didn't think it was going to be able to do.

ここには他にもいくつかの画像がありますし、この論文では実際に思ってもいなかったAIができることについてのインスタンスにも進展があるので、非常に興味深いと思います。

You can also see that along these images, the captions are pretty accurate.

また、これらの画像に沿って、キャプションがかなり正確であることもわかります。

A bearded man holding a plate of food, a man holding a banana to take a picture of it, a man holding a slice of cake.

食べ物の皿を持っているひげ面の男、バナナを持って写真を撮っている男、ケーキを持っている男。

Then we have a big truck in the middle of the road.

そして道路の真ん中に大きなトラック。

Then we have a baseball player pitching a ball on top of a baseball field.

それから、野球選手が野球場の上でボールを投げる姿があります。

Then we have a surfer riding away from the ocean, a surfer with a wetsuit riding a wave.

それから、サーファーが海から離れて波に乗っています。ウェットスーツを着たサーファーが波に乗っています。

Then we have a white horse with a white and blue silver bride.

それから、白い馬が白と青の銀の花婿と一緒にいます。

And it's interesting to see how this AI handles these problems.

このAIがこれらの問題をどう処理するかは興味深い。

Now, it's important to note here, although some of you may think that this image captioning isn't that great, you have to understand that in this research paper, they specifically decided not to cherry-pick any responses because they wanted to showcase the true capabilities.

さて、ここで重要なのは、この画像キャプション付けがそれほど優れていないと思う人もいるかもしれないが、この研究論文では、真の能力を紹介したかったので、特にどの回答も選ばないことにしたことを理解してほしい。

Now, understand that with reinforcement learning with human feedback, this kind of AI could get incredibly better.

さて、人間のフィードバックによる強化学習によって、この種のAIは信じられないほど良くなる可能性があることを理解してほしい。

For example, when it outputs all three of these captions, a human could then select the best one and give the artificial intelligence a token that tells it this was a good choice.

例えば、これらの3つのキャプションをすべて出力したときに、人間が最も良いものを選び、人工知能にこれが良い選択だったというトークンを与えることができる。

And that's how over time, AI systems become better and better.

そうやって時間をかけて、AIシステムはどんどん良くなっていく。

Then, of course, we have an interesting feature.

それから、もちろん面白い機能もある。

And to be honest, I'm not entirely sure why Gato wasn't released by Google or developed into a full-fledged product.

正直なところ、なぜGatoがグーグルからリリースされなかったのか、あるいは本格的な製品として開発されなかったのか、私にはまったくわからない。

What we can see here is the chat functionality by Gato.

ここで見ることができるのは、Gatoによるチャット機能だ。

So this is called Chit Chat with Gato: Dialogues with Gato When It Is Prompted to Be a Chatbot.

これがGatoとの雑談というわけだ: チャットボットになるよう促されたときのGatoとの対話。

Usually, Gato replies with a relevant response, but is often superficial or factually incorrect, which could be improved with further scaling.

通常、Gatoは適切な返答を返しますが、表面的であったり、事実と異なっていたりすることが多く、さらなるスケーリングによって改善される可能性があります。

And we use the same prompt in another page.

また、別のページでも同じプロンプトを使用しています。

So I find the conversational tone of this to be very interesting because it starts with a user saying, Explaining the basics of black holes to me, and the artificial intelligence states, So I guess I'm trying to answer this simple question: What's a black hole?

この会話調のトーンは非常に興味深いと思います。ユーザーが「ブラックホールの基礎を説明してください」と言い、人工知能が「なんだかこのシンプルな質問に答えようとしているんです」と述べています。

The user comments back, Indeed, please go ahead.

ユーザーは、確かに、どうぞ、とコメントを返す。

And then, it gives a pretty decent explanation of a black hole, but of course, we do see some instances where there are some hallucinations.

そして、ブラックホールについてかなりまともな説明をしてくれますが、もちろん、幻覚が見える場合もあります。

We can see that when it's stated, What is the capital of France?

フランスの首都は何ですか?と言われた時、わかります。

they say Marseille, which of course isn't the capital of France.

と聞かれたとき、彼らはマルセイユと答えるが、もちろんそれはフランスの首都ではない。

Now, although you might be thinking, Okay, this is an AI that isn't that particularly impressive on any given task, why are people talking about this AI when there are far better AIs in certain categories?

さて、このAIはどのようなタスクでも特に印象的なものではない、とあなたは思うかもしれないが、あるカテゴリーでははるかに優れたAIがあるのに、なぜ人々はこのAIについて話すのだろうか?

Well, you have to understand that this kind of AI model doesn't use a large number of parameters, such as ChatGPT.

さて、この種のAIモデルは、ChatGPTのように多くのパラメータを使用しないことを理解する必要があります。

This model only used around 1.2 billion parameters in the case of GPT-3.

GPT-3の場合、このモデルは約12億のパラメーターしか使っていない。

So, this AI, what you have to understand, although it might lack complete depth, it can do a wider range of tasks, and it also can do strange tasks.

つまり、このAIは、完全な深みには欠けるかもしれないが、より幅広いタスクをこなせるし、奇妙なタスクもこなせるということだ。

For example, playing video games like Atari, which is not something that other AIs can do.

例えば、アタリのようなビデオゲームをプレイするといったことは、他のAIにはできないことです。

And remember, the goal here for this kind of paper was to create something that could handle pretty much any task needed.

覚えておいてほしいのは、この種の論文のゴールは、必要なタスクのほとんどを処理できるものを作ることだったということだ。

And while you might think that these are just simple experiments and research-driven studies, this is not the case.

そして、これらは単純な実験や研究主導の研究に過ぎないと思うかもしれないが、そうではない。

You see, DeepMind's RoboCat, which was released a couple of days ago, proves that GPT-3's framework can be used in real-world applications that many people may need.

数日前に発表されたディープマインドのRoboCatは、GPT-3のフレームワークが多くの人が必要とする可能性のある実世界のアプリケーションで使用できることを証明している。

Which goes to show that once these AI models do have a base, that eventually over time, we're going to be able to build upon these large multimodal models and implement them into the real world.

このことは、このようなAIモデルがベースとなり、やがて時間の経過とともに、このような大規模なマルチモーダルモデルの上に構築され、実世界に実装されるようになることを示している。

この記事が気に入ったらサポートをしてみませんか?