【Difyアプリ】画像ファイルをRAG用データに変換

2024年7月9日 18:20

社内検索やナレッジマネジメントで生成AIを活用するシーンが多くなってますね。RAG（Retrieval-Augmented Generation）と言われていて、外部情報を取り込んで生成AIに学習させ、ユーザの検索クエリに対して回答を返すというようなものです。

その際重要なのが何といってもデータの前処理です。前処理が不十分だと、検索クエリに対して関連度の高い情報を引き出せなかったり、検索に引っかからなかったりします。

特に画像を扱う場合は、その画像を自然言語で説明し、そのテキストを提供する必要があります。

そのやり方は大きく2つあり、今回は①についてDifyを使ってRAG用データを作成するアプリを作成しました
①contextとして画像を自然言語で表現
②embeddigngで画像の意味をベクトル空間にマッピング

embeddingもやりたかったのですが、Difyだと複数画像をアップロードできないためベクトル化しにくく断念…。現状これをやるならDifyではなく自前で作る必要がありそうです

画像データをRAG化する際のポイント

まず、画像データをRAG用に変換する際の重要なポイントについて説明します。

画像データを単に「構造化されたデータにして」といった汎用的な指示だけでは、十分な結果が得られないことが多いです。そのため、画像の種類ごとに具体的なプロンプトを作成する必要があります。以下の手順で進めると効果的です。

例:

こうすることで、画像の種類に応じた適切な情報を引き出すことができます。

試しにChat-GPTでグラフの画像をデータ化するプロンプトを作成したところ、以下だとグラフラベルを読み取ってくれずうまくいきませんでした
これだと社内検索で「販売数量の推移を教えて」とクエリを投げたときに帰ってきません

なので以下のような形で、グラフ用に詳細にプロンプトを書く必要があります

全体としてはこんな感じです

では作成手順を説明していきます

右上の「機能」を選択し、「画像アップロード」をオンにしてください。

まずはアップロードされた画像を分類します。ここではイラスト/写真、グラフ、テキストの3種類の分類させました

下記のようにIFフローを使い、画像の分類ごとに条件分岐をさせます

下記のように、IFフローで分岐された条件ごとにLLMを設定し、それぞれの分類に即したプロンプトを記載します

試しに以下の画像をアップロードしてみます

正しく出力されました

作成したアプリはこちらに公開しているので、どなたでもお使いいただけます！
https://udify.app/workflow/67KqLjkYM5aYsZ53

この記事が気に入ったらサポートをしてみませんか？