最近話題のマルチモーダルLLM まとめ

npaka

2023年9月20日 16:53

最近話題の「マルチモーダルLLM」をまとめました。

1. マルチモーダルLLMの概要

「マルチモーダルLLM」(MLLM)は、画像とテキスト（自然言語）を組み合わせたタスクに用いられるモデルです。視覚情報とテキスト情報を組み合わせて多くの実世界の問題を解決するための強力なツールとなっています。

以下のスライドが参考になります。

2. マルチモーダルLLM

主な「マルチモーダルLLM」は、次のとおりです。

2-1. BLIP

2022年1月、Salesforceが発表したマルチモーダルLLMです。

2-2. Flamingo

2022年4月、DeepMindが発表したマルチモーダルLLMです。モデルは非公開ですが、オープンソースで再現された「OpenFlammingo」が公開されています。

2-3. Git

2022年5月、Microsoftが発表したマルチモーダルLLMです。

2-4. BLIP-2

2023年1月、Salesforceが開発したマルチモーダルLLMです。

3. マルチモーダルLLMのタスク

「マルチモーダルLLM」の主なタスクは次のとおりです。

3-1. Image Captioning (画像キャプショニング)

画像に対する適切な説明文 (キャプション) を生成するタスクです。モデルは画像の内容を理解し、それをもとに自然言語で説明を生成します。

画像 → 説明文

3-2. Visual Question Answering (視覚的質問応答)

画像に関する質問に対して、自然言語で回答するタスクです。モデルは画像と質問の両方を入力として受け取り、適切な回答を生成します。

画像 + 質問 → 応答

3-3. Visual Dialog (視覚的対話)

画像をもとにした対話形式の質問応答タスクです。モデルは画像とテキストの対話履歴を入力として受け取り、対話のコンテキストを理解し、応答を生成します。

画像 + 会話履歴 → 応答

3-4. Image-Text Matching（画像とテキストのマッチング)

画像とテキストのペアを受け取り、それらの間の関連性スコアを計算するタスクです。特定の画像に対する説明文を選択する場合などに利用します。

画像 + テキスト → 関連性スコア

3-5. Image Classification (画像分類)

画像に対する適切なカテゴリを選択するタスクです。旧来の画像分類と比べて、学習なしにFew-Shotで画像分類ができるのが特徴になります。

画像 → カテゴリ

4. マルチモーダルLLMの使用

マルチモーダルLLMの使用手順は、以下で紹介しています。

4-1. BLIP+StableLM / Git+Llama 2 / Git+ELYZA / Git+StableLM

4-2. BLIP+StableLM

4-3. BLIP-2+Rinna

4-4. BLIP-2

4-5. OpenFlamingo v2

5. マルチモーダルLLMの学習

「マルチモーダルLLM」を学習するためのライブラリは、次のとおりです。

最近話題のマルチモーダルLLM まとめ

1. マルチモーダルLLMの概要

2. マルチモーダルLLM

2-1. BLIP

2-2. Flamingo

2-3. Git

2-4. BLIP-2

3. マルチモーダルLLMのタスク

3-1. Image Captioning (画像キャプショニング)

3-2. Visual Question Answering (視覚的質問応答)

3-3. Visual Dialog (視覚的対話)

3-4. Image-Text Matching（画像とテキストのマッチング)

3-5. Image Classification (画像分類)

4. マルチモーダルLLMの使用

4-1. BLIP+StableLM / Git+Llama 2 / Git+ELYZA / Git+StableLM

4-2. BLIP+StableLM

4-3. BLIP-2+Rinna

4-4. BLIP-2

4-5. OpenFlamingo v2

5. マルチモーダルLLMの学習

5-1. Heron

5-2. LLaVA

参考

次回

最近話題の マルチモーダルLLM まとめ

1. マルチモーダルLLMの概要

2. マルチモーダルLLM

2-1. BLIP

2-2. Flamingo

2-3. Git

2-4. BLIP-2

3. マルチモーダルLLMのタスク

3-1. Image Captioning (画像キャプショニング)

3-2. Visual Question Answering (視覚的質問応答)

3-3. Visual Dialog (視覚的対話)

3-4. Image-Text Matching（画像とテキストのマッチング)

3-5. Image Classification (画像分類)

4. マルチモーダルLLMの使用

4-1. BLIP+StableLM / Git+Llama 2 / Git+ELYZA / Git+StableLM

4-2. BLIP+StableLM

4-3. BLIP-2+Rinna

4-4. BLIP-2

4-5. OpenFlamingo v2

5. マルチモーダルLLMの学習

5-1. Heron

5-2. LLaVA

参考

次回

最近話題のマルチモーダルLLM まとめ