『Claude、ChatGPT、Geminiで「材料写真からレシピ」対決！スマホに最適化した写真入力×専門特化AIがトレンドに!?』～【web3&AI-テックビジネスのアイディアのタネ】2024.3.19

2024年3月19日 11:01

「先進テックで未来の生活はもっと良くなる！」と信じて、Web3・AI・ガジェットなどのデイリーニュースから毎日ひとつピックアップしてご紹介しています。

新規ビジネスのアイディアのタネがほしい方、未来を想像してワクワクしたい方、読んでちょっといいなと思った方、ぜひフォロー・高評価よろしくお願いします！

■Claude、ChatGPT、Geminiで「材料写真からレシピ」対決！

ピザ生地、桃の缶詰、アンチョビ、ホットソース、モッツァレラチーズが映った写真をClaude、ChatGPT、Geminiという3種類のAIに見せてオリジナルピザのメニューを作らせる実験です。

1．複数の食材が映った写真をインプットとする
2．テキストAIにはレシピを出力させる
3．画像AIには出来上がった料理の画像を出力させる

AIがマルチモーダル化に対応したことで実現できたものです。

ChatGPTはオーソドックスなピザを作り、

Geminiに材料を全部使わなくていいと指示すればブルスケッタを作り、

Claude3に最善を尽くすことを求めればモッツアレラパンを作りました。

3つのAIそれぞれで材料の読み取りに若干違いは出たようですが、材料の写真から料理のレシピと出来上がりの画像を一気通貫で作ることには成功しました。

ただし、いずれのAIのレシピも写真は「できすぎ」で、実際に作った時よりも美味しそうに見えるものだとまとめています。つまり、本当に作ったら美味しくないものも生成してしまうこともありえそうです。

マルチモーダルAIとは、テキスト、音声、画像、動画、センサ情報など、2つ以上の異なるモダリティ（データの種類）から情報を収集し、それらを統合して処理する人工知能（AI）システムのことです。

総務省の調べによるとPCの保有率は年々下がっており、AIの利用シーンもスマホにシフトすることが予想されます。

プロンプトと呼ばれるテキスト呪文でAIを動作させる方法はAI登場当初は画期的でしたが、スマホがメインになってくると写真をインプットに使う方が楽です。

ChatGPTそのままでは、何でもできる代わりに何に使っていいかわかりづらいという欠点があります。それが未だにChatGPTを実際に使ったことがある人が増えない大きな理由です。

今回の「材料写真からレシピを生成」のように用途を特化すれば、プロンプトのテキストを入力する必要がなくなり、写真を撮るだけでレシピが提案されるという目的特化型AIサービスが出来上がります。

完成した料理の写真から材料とレシピに戻すという使い方もできます。飲食店で料理の写真を撮ってインスタにアップするというのは日常的にやられていますが、この料理写真から材料とレシピに戻せるAIが出れば、普段やっている作業にAIがシームレスに入り込みます。

もちろん、お店ごとの味の違いを正確に割り戻せるわけはありませんが、ひとつの遊び方としてはユーザー側からは受け入れられそうです。ただしお店側からすると「そんなレシピじゃ作れない！」と反発もあるかもしれません。料理人へのリスペクトは忘れずに。

料理以外にも、木製の椅子やテーブルの写真からDIYで作る手順を教えてくれたり、家電品の写真から操作マニュアルを提示してくれたり、駅の看板の写真から観光名所を提案してくれるなども可能でしょう。

これらのような、プロンプト入力の難しさを解消し、スマホで使いやすくする『写真でインプット→専門特化したアウトプット』というAIサービスがこれから増えそうです。

この記事が気に入ったらサポートをしてみませんか？