見出し画像

画像生成「AIはラーメンを食べれるか?」にアンサー

普段、note記事では滅多に他の人と絡むことがないコミュ障の私ですが、少なからず動揺というか困惑する記事がありましたので、触れないわけにはいかなくなりました。

AIはラーメンが苦手だと…マジか!?

KimamanaDr(KimamanDr)さんのnote投稿で、私のうどん記事を紹介していただいたことがきっかけです。

ご紹介いただいてありがとうございます。
※私の元記事よりも人気がありますね😅💦いいなー。

紹介いただいた「うどん記事」は以下の投稿です。

「AIラーメン問題」とは?

画像生成AI歴が浅い私は初めて聞きました。

どういうことかと言うと↓↓

・AIはラーメンを上手に食べることができないことが話題に。
・初期からそうだが、今でも同じだ(改善されていない)


KimamanaDrさんの投稿を見ると、確かにラーメン(その他麺類全般)の食べ方がおかしい。
手づかみだったり、器から溢れていたりめちゃくちゃです。

画像生成AIは「Stable Diffusion」のようです。
意図的に失敗させているわけではなさそうなので、確かにAIの性能によるものと思われます。

・・ちょっと待て?

そもそも、私が「鼻からうどん」の画像を作ってみたのは、「普通に食べているところだと普通だから、鼻から1本ピロンと出てたら笑えるのでは?」という発想から。

普通に食べているところの天然ボケのほうがウケるなら、ネタの意図自体が根本から覆されてしまうではないか!

これは由々しき問題ですぞ。
盲点でした。

改めて検証が必要です。

いや待って。

「鼻からうどん」の画像生成では、ボケようとしても「普通に食べている画像」になってしまう、というほうが悩みでした。

つまり、「ChatGPT+DALL・E 3」では、麺類はちゃんと食べられるってことですよね。

再検証してみよう☝

「うどんを普通に食べる」をやってみましょう。
ここでは元投稿にならって、アニメ調の絵でいきます。

ちなみに、「○○を食べているところ(場面)」という表現は、
1.食べようとしている=箸で食べ物をはさむ
2.実際に口に入れている
の両方の意味に取れますね。両方やってみます。

男子学生がうどんを食べる

制服がブレザーの学校は多いけど、リボンは女子用では?
最近は多様性だしね。うどんの食べ方に関しては問題なし。

ちなみに、プロンプトは至って普通。いつものように日本語1行です。

こちらの男子は麺をすすっているところ。
山盛りなのと、セーラー服なのが気になるところですが、やはり多様性の社会だからOK。
ボーイッシュな女子という設定でもいけそう。

うどんを食べる女子

どんぶりからズルズルとすする食べ方ではなくて、パスタのように一口サイズをお箸で取る上品な食べ方です。お嬢様です。
が、特に破綻はないようです。

こちらは麺を食べているところ。
お箸にイカリングかオニオンリングを引っかけているものの、食べ方としては大きな破綻はないように見えます。
口への入れ方が若干不自然ですが、まあ及第点。
ちなみに、これは「鼻から」の失敗作です。

ラーメンに変えてみましょう

特に問題ないように見えますね。

もういっちょ。

箸の持ち方が下手なのと、左手が崩壊していますが、これはAI画像にありがちなのでとりあえず無視。
ラーメンの食べ方としては破綻はないように思えます。

自室でカップラーメンを食べる

そういえば、KimamanaDrさんの元記事では、「自分の部屋でカップラーメンを食べる少年」でした。

実際のプロンプト付きで、キャプチャ画像を載せます(ChatGPT)。

カップラーメンがデカサイズですね。
多少誇張はされていますが、実際に大きいサイズのカップラーメンは存在するのでOKです。食べる姿自体は問題ないように見えます。

Stable Diffusionの問題だな?

ChatGPT+DALL・E 3では、ほぼ大丈夫ということが実証されたと思います。

私は、普段はStable Diffusionを使っていませんが、生成AIプラットフォームのClipdropを利用しており、その中の「Text to Image」が、実は中身はStable Diffusionです。
(※SDXLでしたが、2024/4月からSD3になった模様)

そちらで試してみましょう。

「Text to Image」=Stable Diffusion(XL/3)
「Instant text to Image」=Stable Diffusion Turbo

プロンプトは日本語をDeepLで英文にしました。
少年はカップラーメンを無事に食べられるのでしょうか?

自分の部屋でカップラーメンを食べている少年の画像
⇒ Image of a boy eating a cup of ramen in his room.

結果=ガチだった…
(おいおいStable Diffusionがんばれ)

4枚の画像が一気に作られました。

手で食うな。しかも手どうなってんの?
こいつも手づかみか。手もおかしいが。
部屋を片付けろや
確かにカップ+ラーメンだけども…
何杯食べる気?
いや、確かにカップ+ラーメンとは言ったけど!
Z世代の食べ方が斬新すぎて昭和人には理解不可

まさかとは思いましたが、本当にStable Diffusionはラーメンを食べるのが下手でした。ここまでひどいとは。

視点を変えると、NG集としては秀逸です。

結論出ましたね

Stable Diffusionは、ラーメンの食べ方が下手。
ChatGPT+DALL・E 3なら、麺類もまあまあうまく食べられます。


【結論】
麺類を食べるなら「DALL・E 3」です!.


Adobe Firefly、Midjourneyは、環境を持っていないので検証できていません。他の方に任せましょう。

複数の画像生成AIを比較しながら使っている人は、
・アーリーアダプター
・比較研究目的
・金銭的に余裕がある
・時間がある
という人でしょう。

たいていの人は、どれか1つの画像生成AIをメインに使っていると思われるので、「できること、できないこと(得意・不得意)」が、自分が知っている生成AIだけの知識に偏りがちです。

最初の問題に戻ると、「AIはラーメンを食べるのが苦手」というより、「ラーメンを食べるのが苦手なAIもある」が正しい認識ですね。

【余談】
ところで、DALL・E 3の少年少女は、優等生っぽいというか、礼儀正しく良い子たちのように見えるのに、Stable Diffusionの少年は、何となく悪そうな子に見えますね。部屋の雰囲気、服装、表情など。

外見で人を判断してはいけませんが、これも文化的背景の違いなのでしょうか?本題とはちょっと違う観点での気付きでした。



おまけです

うどんの見出しに採用した画像

ルックスも所作も美しいですね

失敗作はこちら

お箸が鼻に刺さってますやん。
あなた何やってるんです? これは痛い。

ボツにしたのはもったいないが、
このようにボツの中にお宝が多数眠っています

これはちょっとね。
ChatGPTに向かって、思わず軽くキレたような対応をしてしまいました。

「さっぱりダメです。間違いだらけです。」

そしたら、反応がこうだ。

謝罪されてしまった。
「次こそは…」って、立場の弱いサラリーマン的な発言で、もう一度チャンスをくださいと懇願されたりしてね。なんかちょっと気の毒に。

その結果がこれだ

プロのお仕事です

不採用にしたのがもったいないような、凜とした佇まいの鼻うどん。
気品あふれる、美しき着物女性の「4本出し」です。
ボツ画像でしたが、今回の記事で日の目を見たのでよかったです。

この記事が参加している募集

この記事が気に入ったらサポートをしてみませんか?