見出し画像

【mPLUG-Owl】英語解説を日本語で読む【2023年4月29日|@WorldofAI】

マルチパーティチャットプロジェクト『mPLUG-Owl』について解説しています。
MultiLIGHTを用いて、言語モデルがグループ会話で複数のキャラクターとして機能する能力を評価しています。
公開日:2023年4月29日
※動画を再生してから、インタビューを読むのがオススメです。


So, I wanted to highlight a couple of things that this project is actually able to do with some of the examples that they've actually provided.

そこで、このプロジェクトが実際にできることを、実際に提供されたいくつかの例で紹介したいと思います。

Owl is able to do a lot of different things, such as image description, multi-turn conversations where you're able to talk, as well as identify certain things of an actual image using its encoders.

Owlは、画像の説明や会話ができるマルチターンの会話、さらにはエンコーダを使って実際の画像の特定の要素を識別するなど、さまざまなことができます。

You're also able to use cross-image retention understanding.

また、画像間の保持を理解することもできます。

Secondly, you're also able to do different things with memes and jokes, so as knowledge-intensive Q&A, so as creative generation.

次に、ミームやジョークを使って、知識集約型のQ&Aや創造的な生成など、さまざまなことができるようになります。

So, this is something quite useful in terms of its actual revolution of having different types of like dialogue research to actually help with the prompt generation.

このように、プロンプトの生成に役立つさまざまな種類の対話調査を行うことは、実際の革命という点で、非常に有用なことです。

Now, for example, let's just look at something like an image description.

例えば、画像の説明のようなものを見てみましょう。

So, describe the image as detailed as possible, and you're able to see such a responsive, detailed, like actual artificial contextual response.

画像の説明をできるだけ詳しく書くと、実際の人工的な文脈に沿った反応を見ることができるのです。

And this is something that you're able to get where the image captures a busy city street filled with people, cars, and motorcycles, which you can see all in this image right here.

これは、画像が人々や車、オートバイでいっぱいの賑やかな市街地を捉えるもので、ここにある画像で全部見ることができます。

Now, you're not only able to get something like this, where you're able to get a descriptive analysis of the image, but you're also able to get something like this, where you're able to talk to the actual bot in terms of getting more information out of it.

さて、これによって画像の記述的分析が得られるだけでなく、さらに詳しい情報を得るために実際のボットと話すことができるようなものも得られます。

So, you're asking, "Who is the man on the right?"

つまり、「右の男性は誰ですか?

and it's basically able to give you a description of who it is by telling you it is Yao Ming, which is a Chinese professional basketball player who played in the NBA.

と尋ねると、基本的には「ヤオ・ミン(NBAで活躍した中国のプロバスケットボール選手)です」と、それが誰であるかを教えてくれます。

Now, "Who is the man on the left?"

では、"左の男性は誰ですか?"と尋ねると、彼がNBAで活躍した中国のプロバスケットボール選手であることがわかります。

you're able to see that he's the basketball coach.

は、バスケットボールのコーチであることがおわかりいただけると思います。

Now, "Who is the taller man?"

では、"背の高い人は誰でしょう?"。

and obviously, you're able to talk to the bot, and it gives you the right responsive images using its encoders by analyzing what's happening in the image.

とボットに話しかけると、ボットはエンコーダーを使って画像の中で起こっていることを分析し、適切な反応を示す画像を与えてくれます。

Lastly, we can talk about the cross-image retention understanding.

最後に、クロスイメージ保持の理解についてです。

So, "Are the clothes the person is wearing in the first picture different in color from the clothes they are wearing in the second image?"

つまり、"1枚目の画像で人物が着ている服と、2枚目の画像で着ている服は色が違うのか?"ということです。

And the bot response that yes, the person in the first picture is wearing a black shirt while the person in the second picture is wearing a gray shirt.

すると、ボットは「はい、1枚目の写真の人は黒いシャツを着ていますが、2枚目の写真の人はグレーのシャツを着ています」と回答します。

Which is absolutely amazing how encoders are working, as well as how MultiLIGHT is able to evaluate the actual ability of large language models.

エンコーダがどのように動作しているか、またMultiLIGHTが大規模な言語モデルの実際の能力をどのように評価しているかは、本当に驚くべきことです。

And this is something that is quite unique, guys.

そして、これは非常にユニークなことなのです。

I definitely recommend that you check out these examples on their code because you're able to see different things and use cases of it, so definitely check this out.

このコード上の例をチェックすると、さまざまなことや使用例を見ることができますので、ぜひチェックしてみてください。

And with that thought, let's get right back into the video.

そう思って、すぐにビデオに戻りましょう。

Now, to test this model, the performance of what actually happens is that researchers basically compared models trained on their newly created dataset, which is called MultiLIGHT.

このモデルをテストするために、研究者は基本的に新しく作成したデータセット(MultiLIGHTと呼ばれる)で訓練したモデルを比較しました。

Now, what this does is that it pairs it with existing pairwise trained dialog models and large language models with few-shot prompting, and we can see that with this diagram over here.

これが行うことは、既存のペアワイズで訓練されたダイアログモデルや大規模言語モデルを、少数のショットプロンプトと組み合わせることで、この図で見ることができます。

In stage one, there are pre-trained LLMs, and it basically uses visual abstractors and visual encoders to process what's happening in the conversation.

第1段階では、事前に訓練されたLLMがあり、基本的に視覚的抽象化器と視覚的エンコーダーを使って、会話で起こっていることを処理します。

And through this, it is sent into an instruction tuning.

そして、これを介して、命令チューニングに送信されます。

And it uses LoRa as well as other pre-trained LLMs, and it does the exact same process to actually get a better understanding, as well as a fine-tuning of what it's trying to accomplish.

そして、LoRaや他の事前学習済みLLMを使用し、よりよい理解と微調整を行うために、同じプロセスを実行します。これにより、目標を達成する際に更なる洞察が得られることでしょう。

Now, in this, you see a model overview where this cute little dog is tired and is trying to express its awareness by saying, "Monday, just Monday."

このモデルには、このかわいい犬が疲れていて、「月曜日、月曜日」と言いながら、自分の意識を表現しようとしている様子が描かれています。

And this is something that we can see from this image, where you have an image, and it's sent in with the pre-trained LLM.

この画像からもわかるように、画像があり、それが事前に訓練されたLLMと一緒に送られます。

It is then sent to a visual encoder, where it processes what's happening in the actual image.

そして、ビジュアルエンコーダーに送られ、実際の画像で起こっていることを処理します。

That is sent into patch features, where it puts it into different chunks, and it basically summarizes and emphasizes what is happening in each chunk of the actual image.

そして、パッチフィーチャーに送られます。パッチフィーチャーでは、画像をさまざまなチャンクに分類し、実際の画像の各チャンクで起きていることを要約して強調します。

This way, it is sent into the visual abstractor, where it then references and tokenizes what is happening in each of those chunks.

このようにして、ビジュアル・アブストラクターに送られ、そこで、それぞれのチャンクで起こっていることを参照し、トークン化します。

Then, it is sent obviously to a pre-trained LLM, in which it basically takes in the analysis of what is actually happening in this.

そして、事前に訓練されたLLMに送られ、この画像で実際に何が起こっているのかを分析します。

We can see that it's able to get a detailed response of what is happening from this image.

この画像から何が起こっているのか、詳細な反応を得ることができることがわかります。

Now, the researchers found that the MultiGP or, sorry, not GPC but Multi-Lite dataset, improved the model's performance significantly in group settings.

研究者たちは、MultiGP、つまりGPCではなくMulti-Liteデータセットが、グループ設定においてモデルのパフォーマンスを大幅に向上させることを発見しました。

This is something that they've been actually seeing as to how it works in different cases, and we will actually check this out later in the video, where we will actually do a demo.

これは、彼らが実際にどのように機能するかを様々なケースで確認しているものであり、後ほどビデオでデモを行う際に詳しくチェックしていきます。

Now, the primary objective of this project is twofold: to evaluate the performance of current LLM models when extended to the multi-party dialog setting and to identify ways to improve these models where they fall short.

このプロジェクトの主な目的は二つあります。まず、現行のLLMモデルをマルチパーティダイアログ設定に拡張した場合の性能を評価すること。次に、モデルが不十分な場合にはそれらを改善する方法を特定することです。

The study basically focuses on two primary challenges, and that is something that we talked about, which is the turn-taking and the coherence of utterances.

この研究では、基本的に2つの主要な課題に焦点を当てます。それは、先ほどもお話ししたように、ターンテイキングと発話の一貫性というものです。

Now, turn-taking is crucial for maintaining the conversation's flow and determining when to speak next, like how critical it is for the actual chatbot to do so.

さて、ターンテイクは、会話の流れを維持し、次に話すタイミングを決めるのに、実際のチャットボットにとっていかに重要であるかと同じように重要です。

If a speaker talks out of turn or remains silent when expected to respond, it basically has a negative assessment on the actual project.

発言者が順番を無視して話したり、返事を期待されても黙っていたりすると、基本的に実際のプロジェクトではマイナス評価となります。

Now, the coherence of utterances is one of the next challenges that they are trying to focus on.

さて、発話のまとまりは、次の課題として重視しようとしている。

This is where the generative approach, as well as basic response, requires consideration for the actual dialog from multiple people in the conversation.

ここでは、基本応答と同様に、生成的なアプローチでは、実際に会話をしている複数の人の対話に配慮する必要があります。

Models must take into account that the participation, coming from the different characteristics to produce a good response, must be adequate with a lot of information.

モデルは、良い応答を生み出すために、さまざまな特性から来る参加は、多くの情報で十分でなければならないことを考慮しなければなりません。

As well as coming at the right time in its particular conversation.

また、特定の会話の中で、適切なタイミングで参加する必要があります。

Now, for something like this, this is one of the two problems that they're actually having.

このような場合、これは実際に抱えている2つの問題のうちの1つなのです。

And therefore, this actual research aims to address these two primary challenges and improve large language models' performances in multi-party conversations.

そこで、この研究では、この2つの課題を解決し、複数人での会話における大規模言語モデルの性能を向上させることを目的としています。

We've seen this as something like we've seen how productive as well as how useful this could be, but what are some of the actual use cases of this?

ここまで、この研究がいかに生産的で、いかに有用であるかを見てきましたが、実際にどのような使用例があるのでしょうか。

Because you might be wondering, "What's so good about this?

というのも、「これのどこがいいんだろう?

Why are you showing me this?" But basically, this project provides several important contributions in the AI world and in terms of the field of dialog research.

なぜこんなものを見せてくれるんだ? しかし、基本的にこのプロジェクトは、AIの世界や対話研究の分野でいくつかの重要な貢献をしています。

Those ones are, in terms of some of the benefits, firstly, I would say, it focuses on the multi-party conversations, which is an important but overlooked aspect in dialog research.

その利点のいくつかを挙げると、まず第一に、マルチパーティ会話に焦点を当てており、これはダイアログ研究において重要だが見過ごされがちな側面です。

Now, I don't know if you guys know a lot about this, but by collecting and evaluating multi-party conversations in a structured environment, like something like a conversation of a cross-image relation or something with a multi-turn conversation, basically, you're able to get valuable insights into these challenges.

さて、皆さんがこれについて詳しいかどうかはわかりませんが、クロスイメージ関係の会話やマルチターンの会話など、構造化された環境で複数人の会話を収集・評価することによって、これらの課題に対する貴重な洞察を得ることができます。

As well as opportunities of improving how chatbots, as well as LMs, actually evaluate and collect data from these multi-party conversations.

また、チャットボットやLMが、このような多者間会話からデータを評価・収集する方法を改善する機会にもなります。

Secondly, I believe that the project introduces the MultiLIGHT dataset, which is something that is quite new and is specifically designed for multi-party conversations.

第二に、このプロジェクトではMultiLIGHTデータセットを導入していますが、これは非常に新しいもので、複数当事者の会話に特化して設計されています。

This is quite unique and contains a large number of conversations as well as utterances.

これは非常にユニークなもので、発話だけでなく会話も多数含まれています。

The dataset provides a valuable resource for researchers to develop and evaluate language models for multi-party conversations.

このデータセットは、研究者が多人数会話用の言語モデルを開発・評価するための貴重なリソースとなります。

Lastly, I feel that the project basically identifies two main challenges in modeling multi-party conversations, and that is the turn-taking and the coherence of utterances.

最後に、このプロジェクトは、基本的に、複数当事者の会話をモデル化する際の2つの主要な課題、すなわち、ターンテーキングと発話の一貫性を特定していると感じています。

It proposes strategies for addressing these challenges, and I feel like as time goes on, we're going to be able to see a progression for multi-party conversations in the structured environment.

これらの課題に対処する戦略を提案し、時間が経つにつれて、構造化された環境でのマルチパーティ会話の進歩が見られるようになると感じています。

Now, this is something that you can get a better understanding of in terms of its research paper.

さて、これはその研究論文を読めば、より深く理解することができます。

So I highly recommend that you check it out, as there's a lot of information and a lot of different detailed analysis as to what they're trying to do, as well as their roadmap.

彼らが何をしようとしているのか、またそのロードマップについて、多くの情報やさまざまな詳細な分析がなされていますので、ぜひご覧になってください。

So, I highly recommend that you check this out, and I'll leave it in the description below.

というわけで、ぜひご覧いただくことをお勧めします。以下、説明文に残しておきますね。

Now, let us check out the actual use cases of this with the actual demo model.

では、実際のデモモデルで、その使用例を確認してみましょう。

So, let's actually check out this demo now.

では、実際に今からこのデモをチェックしてみましょう。

Basically, I just used one of their examples because it's much easier than generating my own.

基本的には、自分で生成するよりもずっと簡単なので、彼らの例の一つを使っただけです。

But basically, it is saying that: can you write me a master rap song that rhymes very well with the base on this image?

しかし、基本的には、「この画像のベースとうまく韻を踏んだラップの名曲を書いてくれませんか」ということです。

And basically, it was able to do so.

そして基本的に、それは実現できました。

We can see it's able to contextually, as well as demonstrate the model's ability to generate coherent and contextually appropriate responses in a group setting.

また、このモデルが、グループ内で首尾一貫した、文脈に応じた適切な応答を生成する能力を実証していることもわかります。

And this is something that we'll also check out with other different showcases of this demo.

これは、このデモの他のショーケースでも確認できることです。

We can see what is so funny about this image, and the great thing about this is that we're able to see that it's able to understand as well as use its encoders very well.

この画像のどこが面白いのかがわかります。この画像の素晴らしいところは、エンコーダーをうまく使って理解できていることです。

Now, let's put this in and see if we're able to generate this.

さて、これを入れて、これを生成できるかどうか見てみましょう。

Now, through this demo, basically, we're able to experience the challenges as well as the opportunities of a multi-party conversation.

このデモを通して、私たちは複数人による会話の難しさと可能性を体験することができます。

And it basically is going to help us get a better understanding of these techniques and strategies used in large modeling for group settings.

そして、グループ設定のための大規模なモデリングで使用されるこれらの技術や戦略について、より深く理解することができるようになります。

Now, this demo is basically going to offer us a glimpse into the exciting world of dialog research, guys, because this is going to have so much potential for innovation and solutions in this field.

このデモは、ダイアログ研究の刺激的な世界を垣間見る機会を提供してくれるでしょう。なぜなら、この分野での革新と解決策に多大な可能性があるからです。

Now, I don't know, oh, we got it right here.

さて、どうでしょう、ここにありますね。

So, from this, we can see what's so funny about this image: describe it panel by panel.

この画像の面白さは、パネルごとに説明することです。

And we can see that the image features grandma rocking out to music with sunglasses and while on a USB cable, I'm plugging it into a cell phone.

そして、この画像には、おばあちゃんがサングラスをかけて音楽に合わせてロックしている姿と、USBケーブルにつないだまま、携帯電話につないでいる姿があることがわかります。

The grandma's enthusiasm and her unusual choice of music are what makes it actually funny.

おばあちゃんの熱意と、変わった音楽のチョイスが、実際に笑いを誘っているのです。

And I could see that it actually detects the skin as well as the wrinkles on the finger to give you a better response, as well as it makes a story of what it's trying to describe by this panel.

そして、実際に肌や指のしわを検出し、より良い反応を得るために、説明しようとしているものについてのストーリーを作成することがわかりました。

Now, let's check out one more.

では、もう1つ見てみましょう。

We can see something about this, maybe something that we saw from the actual example from the diagram over here where we talked about what's so funny about this image.

この画像のどこがおかしいかについて話した、こちらの図にある実例から、何か見えてくるものがあるかもしれません。

So, let's generate this, and I'll leave the links down in the description below, and you can also even play around with the top K as well as how much you can spend in terms of tokens.

それでは、これを生成してみましょう。説明欄の下にリンクを貼っておきますので、トップKやトークンに使える分量をいじって遊んでみることもできます。

So, let's see what I will do for this actual generation: explain why it's so funny to me, Monday, just Monday.

では、この実際の生成で何をするかというと、なぜこんなに面白いのかを説明します、月曜日、ちょうど月曜日です。

Now, you can do a lot of things with this, guys, and I definitely feel like this is going to be used a lot in different cases.

さて、これでいろいろなことができますよ、みなさん。間違いなく、これはいろいろなケースでたくさん使われそうな気がします。

Now, let's see what we're able to get.

さて、どんなものができるのか見てみましょう。

I didn't scroll up; I kept pressing it.

スクロールアップせず、押し続けました。

I kept getting more gender responses, but we see you're able to get even more different types of responses, which is quite cool.

ジェンダーの回答が増えましたが、さらにいろいろな種類の回答が得られることがわかり、とてもクールです。

Now, we can see something like this, a short one.

次に、短いものですが、このようなものがあります。

This meme was funny because it combines two common phrases that people often use when they are tired or feeling enthusiastic.

このミームは、人が疲れているときや意気込んでいるときによく使う2つのフレーズを組み合わせたもので、面白かったです。

Now, the first line "it's not even Monday yet" implies that it's still early in the week, and that the speaker is not looking forward to the upcoming weekend or the workday.

さて、最初の行「it's not even Monday yet」は、まだ週の初めであり、話し手がこれからの週末や平日を楽しみにしていないことを暗に示しています。

So, it's quite amazing how these encoders, as well as these visual constructions, are based off these large language models.

このように、エンコーダーやビジュアルコンストラクションが、大規模な言語モデルに基づいていることは、非常に驚きです。

And this is something cool with this model, guys, because the multi-party chat project is going to show the capabilities of language models and participating in multi-party conversations.

そして、このモデルの素晴らしい点は、マルチパーティチャットプロジェクトが言語モデルが複数人の会話に参加する能力を示すことです。

I personally feel like there's going to be a huge potential for this in the future, guys, because there's going to be a lot of use cases, as well as different ways to utilize this in the business front.

個人的には、将来的にこれが非常に大きな可能性を持つと感じています。なぜなら、ビジネスの現場でこれを活用するさまざまな方法やユースケースが多く存在するからです。

So, with that thought, guys, I hope you found this showcase on this project quite useful.

というわけで、このプロジェクトのショーケースは、かなり役に立ったのではないでしょうか。

There's a lot of people actually looking into this, so I highly recommend that you check it out.

実際にこのプロジェクトについて調べている人はたくさんいるので、ぜひチェックしてみてください。

You can install it, as well as use it, using the core libraries over here.

インストールはもちろん、コアライブラリを使用して使用することもできます。

You can also install it locally on your desktop, so if you want to check that out, you should definitely look at the link that I'll send, and I'll also put it in the description below.

デスクトップにローカルでインストールすることもできますので、興味がある方はぜひ私が送るリンクをチェックしてみてください。また、下の説明欄にもリンクを貼っておきます。

Now, with that thought, guys, thank you so much for watching.

それでは、このビデオをご覧いただき、ありがとうございました。

I hope you enjoyed this video.

このビデオを楽しんでいただけたなら幸いです。

If you want to let me know what I should focus on next time, definitely let me know.

次回は何に焦点を当てるべきか、ぜひ教えてください。

Please subscribe and like this video, guys, as I'm going to be posting a little bit more throughout the next weekend.

次の週末にはもう少し投稿するつもりなので、このビデオの購読と「いいね」をお願いします。

I probably won't get a chance these next few days, but I'll try my best to keep putting out value so that you guys can benefit.

この数日間はチャンスがないかもしれませんが、皆さんが恩恵を受けられるような価値を提供し続けられるよう、最善を尽くします。

So, with that thought, guys, thank you so much for watching, and I'll see you guys next time.

それでは、次回もお楽しみに。

Have an amazing day.

それではまた次回お会いしましょう。


この記事が気に入ったらサポートをしてみませんか?