LlamaIndex v0.10でマルチモーダルRAGをやる(Usage)
2024/05/21
ここでは,マルチモーダルアプリケーションということで,言語だけではなく言語と画像を組み合わせたマルチモーダルアプリーケーションを構築する機能を紹介します.
マルチモーダルな使用法の種類
RAG
RAGの中心となる概念である,インデックス作成,取得,合成はすべて画像に対して拡張ができます.
入力はテキストか画像
保存された知識ベースはテキストか画像で構成
応答生成器への入力はテキスト化画像
最終的な応答はテキストか画像
LlamaIndexでは,マルチモーダルRAGについて次のようなガイドが用意されています.
そのほか
構造化された出力
出力の構造を定義すると決まった形式で出力が得られる
検索拡張画像キャプション
画像の理解に必要なナレッジベースからの情報検索として,画像にキャプション付けをした後にテキストコーパスを用いてcaption tuning
エージェント
GPT-4Vを利用
評価と比較
画像推論のための LLaVa-13、Fuyu-8B、および MiniGPT-4 マルチモーダル LLM モデルの比較
以下のノートブックでは,画像の理解や推論のためにさまざまなマルチモーダルLLMモデルを使用する方法を紹介しています.ReplicateやOpenAI GPT4-V APIによってサポートされています.
GPT4-V (OpenAI API)
LLava-13B (Replicate)
Fuyu-8B (Replicate)
MiniGPT-4 (Replicate)
CogVLM (Replicate)
LlamaIndexでは,次のようなガイドが用意されています.
マルチモーダルRAGの簡易評価
ここで紹介されているノートブックガイドでは,マルチモーダルRAGシステムを評価する方法を説明しています.
テキストのみの場合と同様に,検索器と生成器の評価は別々に行います.
ここでのアプローチは,マルチモーダルRAGの評価に関するブログでふれたように,RetrieverとGeneratorの両方を評価するための通常の手法の適応バージョンの適用が含まれます.
まとめ
マルチモーダルRAGでは,テキストのみを扱うRAGと異なり,入力や外部知識ベース,検索器の出力=生成器への入力,応答合成器の出力に画像を伴うことができる
評価する際は,テキストRAGと同様に検索器と生成器で分けて行う
この記事が気に入ったらサポートをしてみませんか?