画像生成「AIはラーメンを食べれるか?」にアンサー
普段、note記事では滅多に他の人と絡むことがないコミュ障の私ですが、少なからず動揺というか困惑する記事がありましたので、触れないわけにはいかなくなりました。
AIはラーメンが苦手だと…マジか!?
KimamanaDr(KimamanDr)さんのnote投稿で、私のうどん記事を紹介していただいたことがきっかけです。
ご紹介いただいてありがとうございます。
※私の元記事よりも人気がありますね😅💦いいなー。
紹介いただいた「うどん記事」は以下の投稿です。
「AIラーメン問題」とは?
画像生成AI歴が浅い私は初めて聞きました。
どういうことかと言うと↓↓
・AIはラーメンを上手に食べることができないことが話題に。
・初期からそうだが、今でも同じだ(改善されていない)
KimamanaDrさんの投稿を見ると、確かにラーメン(その他麺類全般)の食べ方がおかしい。
手づかみだったり、器から溢れていたりめちゃくちゃです。
画像生成AIは「Stable Diffusion」のようです。
意図的に失敗させているわけではなさそうなので、確かにAIの性能によるものと思われます。
・・ちょっと待て?
そもそも、私が「鼻からうどん」の画像を作ってみたのは、「普通に食べているところだと普通だから、鼻から1本ピロンと出てたら笑えるのでは?」という発想から。
普通に食べているところの天然ボケのほうがウケるなら、ネタの意図自体が根本から覆されてしまうではないか!
これは由々しき問題ですぞ。
盲点でした。
改めて検証が必要です。
いや待って。
「鼻からうどん」の画像生成では、ボケようとしても「普通に食べている画像」になってしまう、というほうが悩みでした。
つまり、「ChatGPT+DALL・E 3」では、麺類はちゃんと食べられるってことですよね。
再検証してみよう☝
「うどんを普通に食べる」をやってみましょう。
ここでは元投稿にならって、アニメ調の絵でいきます。
ちなみに、「○○を食べているところ(場面)」という表現は、
1.食べようとしている=箸で食べ物をはさむ
2.実際に口に入れている
の両方の意味に取れますね。両方やってみます。
男子学生がうどんを食べる
制服がブレザーの学校は多いけど、リボンは女子用では?
最近は多様性だしね。うどんの食べ方に関しては問題なし。
次
ちなみに、プロンプトは至って普通。いつものように日本語1行です。
こちらの男子は麺をすすっているところ。
山盛りなのと、セーラー服なのが気になるところですが、やはり多様性の社会だからOK。
ボーイッシュな女子という設定でもいけそう。
うどんを食べる女子
どんぶりからズルズルとすする食べ方ではなくて、パスタのように一口サイズをお箸で取る上品な食べ方です。お嬢様です。
が、特に破綻はないようです。
こちらは麺を食べているところ。
お箸にイカリングかオニオンリングを引っかけているものの、食べ方としては大きな破綻はないように見えます。
口への入れ方が若干不自然ですが、まあ及第点。
ちなみに、これは「鼻から」の失敗作です。
ラーメンに変えてみましょう
特に問題ないように見えますね。
もういっちょ。
箸の持ち方が下手なのと、左手が崩壊していますが、これはAI画像にありがちなのでとりあえず無視。
ラーメンの食べ方としては破綻はないように思えます。
自室でカップラーメンを食べる
そういえば、KimamanaDrさんの元記事では、「自分の部屋でカップラーメンを食べる少年」でした。
実際のプロンプト付きで、キャプチャ画像を載せます(ChatGPT)。
カップラーメンがデカサイズですね。
多少誇張はされていますが、実際に大きいサイズのカップラーメンは存在するのでOKです。食べる姿自体は問題ないように見えます。
Stable Diffusionの問題だな?
ChatGPT+DALL・E 3では、ほぼ大丈夫ということが実証されたと思います。
私は、普段はStable Diffusionを使っていませんが、生成AIプラットフォームの「Clipdrop」を利用しており、その中の「Text to Image」が、実は中身はStable Diffusionです。
(※SDXLでしたが、2024/4月からSD3になった模様)
そちらで試してみましょう。
プロンプトは日本語をDeepLで英文にしました。
少年はカップラーメンを無事に食べられるのでしょうか?
結果=ガチだった…
(おいおいStable Diffusionがんばれ)
4枚の画像が一気に作られました。
まさかとは思いましたが、本当にStable Diffusionはラーメンを食べるのが下手でした。ここまでひどいとは。
視点を変えると、NG集としては秀逸です。
結論出ましたね
Stable Diffusionは、ラーメンの食べ方が下手。
ChatGPT+DALL・E 3なら、麺類もまあまあうまく食べられます。
【結論】
麺類を食べるなら「DALL・E 3」です!.
Adobe Firefly、Midjourneyは、環境を持っていないので検証できていません。他の方に任せましょう。
複数の画像生成AIを比較しながら使っている人は、
・アーリーアダプター
・比較研究目的
・金銭的に余裕がある
・時間がある
という人でしょう。
たいていの人は、どれか1つの画像生成AIをメインに使っていると思われるので、「できること、できないこと(得意・不得意)」が、自分が知っている生成AIだけの知識に偏りがちです。
最初の問題に戻ると、「AIはラーメンを食べるのが苦手」というより、「ラーメンを食べるのが苦手なAIもある」が正しい認識ですね。
【余談】
ところで、DALL・E 3の少年少女は、優等生っぽいというか、礼儀正しく良い子たちのように見えるのに、Stable Diffusionの少年は、何となく悪そうな子に見えますね。部屋の雰囲気、服装、表情など。
外見で人を判断してはいけませんが、これも文化的背景の違いなのでしょうか?本題とはちょっと違う観点での気付きでした。
おまけです
うどんの見出しに採用した画像
失敗作はこちら
お箸が鼻に刺さってますやん。
あなた何やってるんです? これは痛い。
これはちょっとね。
ChatGPTに向かって、思わず軽くキレたような対応をしてしまいました。
「さっぱりダメです。間違いだらけです。」
そしたら、反応がこうだ。
謝罪されてしまった。
「次こそは…」って、立場の弱いサラリーマン的な発言で、もう一度チャンスをくださいと懇願されたりしてね。なんかちょっと気の毒に。
その結果がこれだ
不採用にしたのがもったいないような、凜とした佇まいの鼻うどん。
気品あふれる、美しき着物女性の「4本出し」です。
ボツ画像でしたが、今回の記事で日の目を見たのでよかったです。
この記事が参加している募集
この記事が気に入ったらサポートをしてみませんか?