画像生成「AIはラーメンを食べれるか？」にアンサー

yoshino

2024年7月19日 08:22

普段、note記事では滅多に他の人と絡むことがないコミュ障の私ですが、少なからず動揺というか困惑する記事がありましたので、触れないわけにはいかなくなりました。

AIはラーメンが苦手だと…マジか！？

KimamanaDr（KimamanDr）さんのnote投稿で、私のうどん記事を紹介していただいたことがきっかけです。

ご紹介いただいてありがとうございます。
※私の元記事よりも人気がありますね😅💦いいなー。

紹介いただいた「うどん記事」は以下の投稿です。

「AIラーメン問題」とは？

画像生成AI歴が浅い私は初めて聞きました。

どういうことかと言うと↓↓

・AIはラーメンを上手に食べることができないことが話題に。
・初期からそうだが、今でも同じだ（改善されていない）

KimamanaDrさんの投稿を見ると、確かにラーメン（その他麺類全般）の食べ方がおかしい。
手づかみだったり、器から溢れていたりめちゃくちゃです。

画像生成AIは「Stable Diffusion」のようです。
意図的に失敗させているわけではなさそうなので、確かにAIの性能によるものと思われます。

・・ちょっと待て？

そもそも、私が「鼻からうどん」の画像を作ってみたのは、「普通に食べているところだと普通だから、鼻から1本ピロンと出てたら笑えるのでは？」という発想から。

普通に食べているところの天然ボケのほうがウケるなら、ネタの意図自体が根本から覆されてしまうではないか！

これは由々しき問題ですぞ。
盲点でした。

改めて検証が必要です。

いや待って。

「鼻からうどん」の画像生成では、ボケようとしても「普通に食べている画像」になってしまう、というほうが悩みでした。

つまり、「ChatGPT＋DALL･E 3」では、麺類はちゃんと食べられるってことですよね。

再検証してみよう☝

「うどんを普通に食べる」をやってみましょう。
ここでは元投稿にならって、アニメ調の絵でいきます。

ちなみに、「○○を食べているところ（場面）」という表現は、
1．食べようとしている＝箸で食べ物をはさむ
2．実際に口に入れている
の両方の意味に取れますね。両方やってみます。

男子学生がうどんを食べる

制服がブレザーの学校は多いけど、リボンは女子用では？
最近は多様性だしね。うどんの食べ方に関しては問題なし。

次

ちなみに、プロンプトは至って普通。いつものように日本語1行です。

こちらの男子は麺をすすっているところ。
山盛りなのと、セーラー服なのが気になるところですが、やはり多様性の社会だからOK。
ボーイッシュな女子という設定でもいけそう。

うどんを食べる女子

どんぶりからズルズルとすする食べ方ではなくて、パスタのように一口サイズをお箸で取る上品な食べ方です。お嬢様です。
が、特に破綻はないようです。

こちらは麺を食べているところ。
お箸にイカリングかオニオンリングを引っかけているものの、食べ方としては大きな破綻はないように見えます。
口への入れ方が若干不自然ですが、まあ及第点。
ちなみに、これは「鼻から」の失敗作です。

ラーメンに変えてみましょう

特に問題ないように見えますね。

もういっちょ。

箸の持ち方が下手なのと、左手が崩壊していますが、これはAI画像にありがちなのでとりあえず無視。
ラーメンの食べ方としては破綻はないように思えます。

自室でカップラーメンを食べる

そういえば、KimamanaDrさんの元記事では、「自分の部屋でカップラーメンを食べる少年」でした。

実際のプロンプト付きで、キャプチャ画像を載せます（ChatGPT）。

カップラーメンがデカサイズですね。
多少誇張はされていますが、実際に大きいサイズのカップラーメンは存在するのでOKです。食べる姿自体は問題ないように見えます。

Stable Diffusionの問題だな？

ChatGPT＋DALL･E 3では、ほぼ大丈夫ということが実証されたと思います。

私は、普段はStable Diffusionを使っていませんが、生成AIプラットフォームの「Clipdrop」を利用しており、その中の「Text to Image」が、実は中身はStable Diffusionです。
（※SDXLでしたが、2024/4月からSD3になった模様）

そちらで試してみましょう。

「Text to Image」＝Stable Diffusion（XL/3）
「Instant text to Image」＝Stable Diffusion Turbo

プロンプトは日本語をDeepLで英文にしました。
少年はカップラーメンを無事に食べられるのでしょうか？

自分の部屋でカップラーメンを食べている少年の画像
⇒　Image of a boy eating a cup of ramen in his room.

て

結果＝ガチだった…
（おいおいStable Diffusionがんばれ）

4枚の画像が一気に作られました。

いや、確かにカップ＋ラーメンとは言ったけど！
Z世代の食べ方が斬新すぎて昭和人には理解不可

まさかとは思いましたが、本当にStable Diffusionはラーメンを食べるのが下手でした。ここまでひどいとは。

視点を変えると、NG集としては秀逸です。

結論出ましたね

Stable Diffusionは、ラーメンの食べ方が下手。
ChatGPT＋DALL･E 3なら、麺類もまあまあうまく食べられます。

【結論】
麺類を食べるなら「DALL･E 3」です！.

Adobe Firefly、Midjourneyは、環境を持っていないので検証できていません。他の方に任せましょう。

複数の画像生成AIを比較しながら使っている人は、
・アーリーアダプター
・比較研究目的
・金銭的に余裕がある
・時間がある
という人でしょう。

たいていの人は、どれか1つの画像生成AIをメインに使っていると思われるので、「できること、できないこと（得意・不得意）」が、自分が知っている生成AIだけの知識に偏りがちです。

最初の問題に戻ると、「AIはラーメンを食べるのが苦手」というより、「ラーメンを食べるのが苦手なAIもある」が正しい認識ですね。

【余談】
ところで、DALL･E 3の少年少女は、優等生っぽいというか、礼儀正しく良い子たちのように見えるのに、Stable Diffusionの少年は、何となく悪そうな子に見えますね。部屋の雰囲気、服装、表情など。

外見で人を判断してはいけませんが、これも文化的背景の違いなのでしょうか？本題とはちょっと違う観点での気付きでした。

おまけです

うどんの見出しに採用した画像

失敗作はこちら

お箸が鼻に刺さってますやん。
あなた何やってるんです？　これは痛い。

これはちょっとね。
ChatGPTに向かって、思わず軽くキレたような対応をしてしまいました。

「さっぱりダメです。間違いだらけです。」

そしたら、反応がこうだ。

謝罪されてしまった。
「次こそは…」って、立場の弱いサラリーマン的な発言で、もう一度チャンスをくださいと懇願されたりしてね。なんかちょっと気の毒に。

その結果がこれだ

不採用にしたのがもったいないような、凜とした佇まいの鼻うどん。
気品あふれる、美しき着物女性の「4本出し」です。
ボツ画像でしたが、今回の記事で日の目を見たのでよかったです。

この記事が参加している募集

#AIとやってみた

34,547件

この記事が気に入ったらサポートをしてみませんか？