「ChatGPT-4o」は視力を手に入れた！しっかり過ぎて怖いかも

2024年5月16日 00:26

つい先日リリースされた、最新型の生成AIであるChatGPT4o（フォーオー）はマルチモーダルであり、音や映像も取り込めると言う触れ込みだ。

画像入力機能については、スマホでも使えるというので、早速その実力を試してみた。

...結論から言おう。

AIが人間並みの視覚を持ち、月々3,000円で誰でもスマホで利用できる時代が、ついに到来したのだ。

試した題材は、自分の中で撮影した料理の写真10枚。

内容は、一品料理から、デザートセット、弁当、ビュッフェでのピックアップなど、段々難しくしてある。

写真を送って、プロンプト（質問）は、カロリーと糖質を尋ねるというシンプルなやり取りである。

100文字に絞ったのは、何も指定をしないと 1枚の写真に収まらない位の文章を作成するからだ。

まあ、わかりやすい例だし。
次に行こう。

これをメジャーな饅頭や焼売、餃子と間違えていないのが驚きだ。

魚の種類までは、わからなかったみたいで、ちょっとホッとした。

偶然当たったのか、それとも膨大な資料から推測してるのか。

デザートとして出されたものなので正解だし、GPT4oに詳しく聞くと、クリームみたいなものが添えてあったので甘いものと判断したとのことだった。

セットって判断してるし、内容物も合ってるから、一品料理でなくても大丈夫そうだ。

ビッフェでピックアップした６品で、内容物もまあ合ってるね...ちょっと怖い。

次のiPhoneのカメラでデザートと撮ると「糖質量がオーバーしてますけど、よろしいですか？」とか聞かれそう。

今はまだ、「なだ万」というブランド名までは出ないけど...そう遠くない未来なのかもしれない。

これについては、もう少し内容を詳細に教えるように指示したのが、下記だ。

２品少ないし、プリンじゃなくて卵料理で、海老料理が微妙なんだけど、緑茶も茶碗蒸しも含めて、かなりの部分が合っていた。

カロリーや糖質量の細かい部分は検証が必要だが、これまでのメニューチェックアプリを出してるメーカーは戦々恐々としているに違いない。

正直言って、ChatGPTがこれほどまでに、ちゃんとした視力を手に入れたことには驚きを隠せない。

今回試したのは、ChatGPT4oの視力部分だけだが、生成AIなのだから、おそらく画像作成もかなりレベルアップしているだろう。

ビジネス環境だけでなく、普段の生活さえも、激変していきそうだ。

この記事が参加している募集

この経験に学べ

この記事が気に入ったらサポートをしてみませんか？