ChatGPTが視覚を獲得！SceneXplain画像認識プラグインの驚異的なパワーとGPT-4のマルチモーダル機能の可能性

hantani

2023年6月7日 14:01

GPT-4には画像認識するマルチモーダルの機能がありますが、これまでChatGPTでは画像入出力がありませんでした。

もしかするとその気分を試せるかも知れません。
ChatGPT PlusのSceneXplainプラグインはURLで与えた画像がなんであるかを「言葉で」説明してくれるのです。

試してみました。

https://nekogazou.com/wp-content/uploads/2013/03/49ef72b19c9b2addea8db508ca9b00b73.jpg

SceneXplainプラグインを有効にしてChatGPTに質問します。

Q.以下の画像には何が写っていますか
https://nekogazou.com/wp-content/uploads/2013/03/49ef72b19c9b2addea8db508ca9b00b73.jpg

A.この画像は、とても心温まるものです。2匹の愛らしい子猫が、かわいい犬のデザインが施されたコーヒーカップに住み着いています。子猫たちはそれぞれ異なる表情を見せています - 一匹はカップの縁に前足を乗せて遊び心溢れる表情で覗き込んでいる一方、もう一匹はカップの中で満足げに昼寝をしており、頭を縁に乗せています。3匹目の子猫はカップの隣に座っていて、次に何をすべきかまだ考えているようです。一方、堂々とした白い猫が木製のテーブルの上に座っており、周囲の騒動を見守っています。この魅力的なシーンは、暖かい自然光に照らされており、居心地の良い雰囲気を作り出しています。

もしかすると・・・ChatGPTは「視力」を得たのかも知れません。
このプラグインは「画像を使ってChatGPTに指示を出す」ことに使われたり、
目の見えない方に画像を説明することに使われたりするのかも知れません。

自動化で難しいのが「人の目による作業」の自動化なんですよね。

この記事が気に入ったらサポートをしてみませんか？