C-5 マルチモーダルRAGの社会実装への技術アプローチ
デブサミでメモしたことをつらつら書いていきます。
MuRAG = マルチモーダルRAG
RAG = 検索拡張生成
LLMでは足りない外部の情報などを取り組みことによってハルシネーションを抑える
![](https://assets.st-note.com/img/1708655247223-V2W06m7bPt.jpg?width=1200)
マルチモーダル
複数のデータ形式が混在している
ドキュメント
写真、音声、動画・・・
![](https://assets.st-note.com/img/1708655267747-vxZaZ7tLb1.jpg?width=1200)
MuRAG
画像が入ることも想定している
構成要素
画像の特徴量
テキストの特徴量
OCR・ドキュメントレイアウトアナリシス・テーブルtoText
テキストの生成
![](https://assets.st-note.com/img/1708655313008-Gf1VZERkdz.jpg?width=1200)
MuRAG到達までの歴史
![](https://assets.st-note.com/img/1708655357764-4nThZh9Zgm.jpg?width=1200)
画像の特徴量抽出
![](https://assets.st-note.com/img/1708655378757-jF9iJmjPTj.jpg?width=1200)
テキストの特徴量抽出
![](https://assets.st-note.com/img/1708655399764-c2X77eNugE.jpg?width=1200)
テキストの生成
CLIPが出てきてマルチモーダルができるようになってきた
![](https://assets.st-note.com/img/1708655420721-oQ18zJwZqR.jpg?width=1200)
OpenAIのモデル
![](https://assets.st-note.com/img/1708655449791-Zl0kTYQ19c.jpg?width=1200)
今までの研究がつながって今のモデルにつながっている
MuRAG実践
実現方法
LangChain Unstructured GPT4V
インデックス化
PDFの中にいろんな要素があるが、分解させているイメージ
画像だけはそのまま入れるが、それ以外はエンベディングしている
正確には画像もエンベディングしているが、物自体は画像を突っ込んでいる
![](https://assets.st-note.com/img/1708852751954-iE8QvRZwZS.jpg?width=1200)
全体像
![](https://assets.st-note.com/img/1708852819514-6yCPMRRoC0.jpg?width=1200)
Assistants API
インデックス化
![](https://assets.st-note.com/img/1708852841418-I7FgX0hEIo.jpg?width=1200)
全体象
![](https://assets.st-note.com/img/1708852871290-YmZSWRn5br.jpg?width=1200)
Assistants APIに投げちゃいばマルチモーダルRAGのインデックス化ができてしまう
短絡的にこれでいいじゃんと考えてしまうが・・・
確かに試す場合はいいと思うが、いくつか課題はある
プロダクトにするには壁がある・・・
MuRAGの評価指標
画像完全抽出率
正確に図や表を抜き出せているか
回答GT類似度
元々用意しておいたコンテキストと回答が類似しているか
回答正解率
クイズ形式でちゃんとあっているか
![](https://assets.st-note.com/img/1708852908010-KLumwrD2cg.jpg?width=1200)
画像完全抽出度
表2を抜き出せという問いに対して見切れてるから不正解とした
![](https://assets.st-note.com/img/1708852938452-HtHFU8yDKB.jpg?width=1200)
LUGの評価
![](https://assets.st-note.com/img/1708852962245-r8VcdfKG2C.jpg?width=1200)
精度 参照なし/有りについて
上が参照なし
下が参照あり
![](https://assets.st-note.com/img/1708852977021-f4qkmCwbNz.jpg?width=1200)
回答GT類似度の精度比較
![](https://assets.st-note.com/img/1708853016785-JZynfsjNKg.jpg?width=1200)
回答正解率の精度
![](https://assets.st-note.com/img/1708853032054-FEk3VvQusc.jpg?width=1200)
実践まとめ
サービスやプロダクトとして提供するときに、パフォーマンスやRate Limitが最大の課題になっている
![](https://assets.st-note.com/img/1708853247646-H5Pllj0HEM.png?width=1200)
この記事が気に入ったらサポートをしてみませんか?