AIはラーメンを食べれるか？

kimamanDr

2024年7月16日 22:06

熱い！　火傷しますね。

はじめに

こんにちは、kimamanaDr です。

今回は、AIイラストで話題になっているラーメン問題を紹介します。

今回の記事を読んでも、残念ながらラーメン問題は解決しません。この問題は根が深いので、失恋と同じく時間が解決するのを待つしかありません。

AIラーメン問題とは？

AI画像生成が普及した黎明期（2022年10月頃）、「AIはラーメンを上手に食べることができない！」ことが話題になりました。

これは、今でも再現することができます。

Stable Diffusion XL の場合

まず、私がメインで使っている Stable Diffusion XL（2023年7月～）で試してみます。

ラーメンを上手に食べれない少年 — 夜にアパートの自室でカップラーメンを食べる少年

うどんや蕎麦も問題

問題はラーメンだけにとどまりません。同じ問題はうどんや蕎麦でも起こります。

箸を４本持とうとして失敗している女性 — 江戸時代に田舎の蕎麦屋で蕎麦を食べる着物を着た日本人女性

問題は学習の偏り

画像生成AIは膨大な数の画像データから学習しています。

Stable Diffusion をはじめ多くの画像生成AIが利用している代表的なオープンソースのデータセットが LAION-5B で、Pintarest・WordPress・Blogger・Flickr（Yahoo系列）などをはじめとした数十億の画像データが含まれています。

AIは画像とそれに関連するテキストとの重み付けを学習し、入力されたテキストに近い画像を出力します。

マイナーな画像

画像データの数は膨大ですが、条件を狭めていくと数は限られてきます。

全ての画像 ⊇ 食事の画像 ⊇ 箸を使って食べている画像 ⊇ 麺類の画像

箸でラーメンを食べている画像はかなり少なくなります。そして、麺をすすっている瞬間を捉えた画像は、エチケット的にも極めてまれです。

正しい画像で学習ができていない場合、おかしな画像が出力される可能性が高くなります。

別のAIはどうか？

別のAIはどうでしょうか？　Adobe Firefly Image3（2024年4月～）を試してみます。

マッチョな男性が両手に箸を持ってラーメンを食べている — マッチョな外国人のボディービルダーの男性が、夜の日本の屋台で笑顔で箸でラーメンを食べている写真。食と文化。

こちらはかなり上手に食べることができています。それでも、箸の持ち方は少しおかしいですね！

Firefly は LAION-5B を使用せず、著作権フリーのオープンライセンスの画像や Adobe Stock などのストックサイトから学習しています。

例えば「日本ラーメン食べ歩き」のような写真集を Adobe Stock にアップロードしているユーザーがいた場合、AIはかなり良質なデータで学習できることになります。

フォークはどうか？

箸をフォークに変えてみます。

女性がクールにカップラーメンを食べている — メガネを掛けた白人のインテリ女性が、小綺麗なオフィスでフォークでカップラーメンを食べている写真。経済と発展。

こちらは完璧ですね。フォークを使った食事の例は、箸よりもずっと多いのでしょう。

パスタはどうか？

パスタはどうでしょうか？　冒頭で手づかみでラーメンを食べていた少年は挽回できるでしょうか？

残念！

Stable Diffusion 3 medium はどうか？

Stabke Diffusion の新バージョンの Stable Diffusion 3 medium（2024年6月～）でも試してみます。

Stable Diffusion3 に使用されたデータセットは、前バージョンの SDXL と同じ LAION-5B なので、あまり変化が無いようです。

今回 Stabe Diffusion 3 medium は、オンラインの画像生成サイトを利用しましたが、カスタムされたモデルを利用できないので画風もいま一つです。

短期間では改善しないかも

LAION-5Bの後継については現在のところはっきりとしたアナウンスは行われていません。

一応、Stable Diffusion では自分で画像データを用意して学習させることもできます。

私は学習データの作成は行っていませんが、いずれ誰か作って公開してくれるかもしれません。

箸でラーメンを食べられるようになるまで、もうしばらく待つ必要がありそうです。

現在の生成AIのバージョン

Stable Diffusion 3 medium：2024年6月
Adobe Firefly Image 3：2024年4月
MidJourney V6：2023年12月
DALL-E 3：2023年10月
Stable Diffusion XL：2023年7月

今回検証したのは、Stable Diffusion と Adobe Firefly Image 3 です。

なお、こちらの記事では DALL-E3 はかなり上手にうどんを食べるようです。

お読みいただきありがとうございます！

おまけ

この記事が参加している募集

#AIとやってみた

29,088件

この記事が気に入ったらサポートをしてみませんか？