LlamaIndex v0.10でマルチモーダルRAGをやる(Usage)

2024/05/21

ここでは,マルチモーダルアプリケーションということで,言語だけではなく言語と画像を組み合わせたマルチモーダルアプリーケーションを構築する機能を紹介します.

マルチモーダルな使用法の種類

RAG

RAGの中心となる概念である,インデックス作成,取得,合成はすべて画像に対して拡張ができます.

  • 入力はテキストか画像

  • 保存された知識ベースはテキストか画像で構成

  • 応答生成器への入力はテキスト化画像

  • 最終的な応答はテキストか画像

LlamaIndexでは,マルチモーダルRAGについて次のようなガイドが用意されています.

そのほか

  • 構造化された出力

    • 出力の構造を定義すると決まった形式で出力が得られる

  • 検索拡張画像キャプション

    • 画像の理解に必要なナレッジベースからの情報検索として,画像にキャプション付けをした後にテキストコーパスを用いてcaption tuning

  • エージェント

    • GPT-4Vを利用

評価と比較

画像推論のための LLaVa-13、Fuyu-8B、および MiniGPT-4 マルチモーダル LLM モデルの比較

以下のノートブックでは,画像の理解や推論のためにさまざまなマルチモーダルLLMモデルを使用する方法を紹介しています.ReplicateやOpenAI GPT4-V APIによってサポートされています.

  • GPT4-V (OpenAI API)

  • LLava-13B (Replicate)

  • Fuyu-8B (Replicate)

  • MiniGPT-4 (Replicate)

  • CogVLM (Replicate)

LlamaIndexでは,次のようなガイドが用意されています.

マルチモーダルRAGの簡易評価

ここで紹介されているノートブックガイドでは,マルチモーダルRAGシステムを評価する方法を説明しています.

テキストのみの場合と同様に,検索器と生成器の評価は別々に行います.

ここでのアプローチは,マルチモーダルRAGの評価に関するブログでふれたように,RetrieverとGeneratorの両方を評価するための通常の手法の適応バージョンの適用が含まれます.


まとめ

  • マルチモーダルRAGでは,テキストのみを扱うRAGと異なり,入力や外部知識ベース,検索器の出力=生成器への入力,応答合成器の出力に画像を伴うことができる

  • 評価する際は,テキストRAGと同様に検索器と生成器で分けて行う

この記事が気に入ったらサポートをしてみませんか?