LlamaIndex v0.10でマルチモーダルRAGをやる(Usage)

2024年5月21日 16:37

2024/05/21

ここでは，マルチモーダルアプリケーションということで，言語だけではなく言語と画像を組み合わせたマルチモーダルアプリーケーションを構築する機能を紹介します．

マルチモーダルな使用法の種類

RAGの中心となる概念である，インデックス作成，取得，合成はすべて画像に対して拡張ができます．

LlamaIndexでは，マルチモーダルRAGについて次のようなガイドが用意されています．

構造化された出力
- 出力の構造を定義すると決まった形式で出力が得られる
検索拡張画像キャプション
- 画像の理解に必要なナレッジベースからの情報検索として，画像にキャプション付けをした後にテキストコーパスを用いてcaption tuning
エージェント
- GPT-4Vを利用

以下のノートブックでは，画像の理解や推論のためにさまざまなマルチモーダルLLMモデルを使用する方法を紹介しています．ReplicateやOpenAI GPT4-V APIによってサポートされています．

LlamaIndexでは，次のようなガイドが用意されています．

ここで紹介されているノートブックガイドでは，マルチモーダルRAGシステムを評価する方法を説明しています．

テキストのみの場合と同様に，検索器と生成器の評価は別々に行います．

ここでのアプローチは，マルチモーダルRAGの評価に関するブログでふれたように，RetrieverとGeneratorの両方を評価するための通常の手法の適応バージョンの適用が含まれます．

この記事が気に入ったらサポートをしてみませんか？