見出し画像

LINEチャットボットでマルチモーダルAIを試す

GPTやGeminiなどのAIチャットをLINEをインターフェースとして使っていますが、LINEだと1回のメッセージに複数のデータを入れられないので、マルチモーダル機能(1回のプロンプトで複数の情報源"テキスト、画像、音声、映像"を組み合わせる機能)を試すにはWebhook側で実装した。

使い方は、下の図の通りで、同時にプロンプトに入力したい画像または音声をアップロードします。チャットボットが保存した旨とプロンプトを求めるメッセージを出すので、続けてメッセージを入力すれば1回の問い合わせにまとめてAIへ送信されます。

GPT-4の回答


Gemini Pro 1.5の回答

今回の仕組みに変えたことで、さらに複数の情報を一度のプロンプトに投入することができるようになったので、AIの対応状況を確認しながら実装を検証していきます。

$$
\text{表:LINEボットでの対応状況} \\
\begin{array}{|l|c|c|c|l|} \hline
\text{AI} & 画像 & 音声 & 動画 & 備考  \\ \hline
\text{ChatGPT} & 〇 & × & × &  APIとしては音声も出来るらしいが実装方法がわからない。\\ \hline
\text{Gemini} & 〇 & 〇 & × &  動画は画像と音声に分割するらしいが実装が思いつかない。\\ \hline\end{array}
$$


この記事が気に入ったらサポートをしてみませんか?