見出し画像

【画像生成AIの教科書】 今の画像生成AIが苦手なこと

はじめに

皆様こんにちは!
画像生成AIについて情報発信をしているDYNAです!
いきなりですが、私たちが普段使っている画像生成AIって
実は結構バカなんですよ!!

という言い過ぎですが(開発者の人ごめんなさい)、
意外と知られていない
「え!あんな綺麗な絵を作れるのに、こんなこともできないの!?」
という苦手なこともあったりするんですよ😇

今回はそういった苦手を紹介していきます。
ちなみに、タイトルにも「今の」と付けている通り、
2023年5月現在の話です。
これからは確実に改善されていくものも多いので、
そのあたりご注意ください、、!

苦手1. 複雑な構造の再現

"Midjourney"と書かれた看板

最初に苦手なことは「複雑な構造」です。
例の画像は「"Midjourney"と書かれた看板」というプロンプトですが、
どれも「"Midjourney"」とはなっていません。
こういった文字の再現が苦手です。
他にも、指の形なども苦手です。
しかし、最近が徐々に改善されてきています。
4月に発表された「DeepFloydIF」は、文字の再現を得意としています。
まだまだ完全ではありませんが、
テキストエンコーダーの性能が上がることなどで、
今後益々改善に向かうと思います。

苦手2. 数の再現

目玉焼きが乗ったパン5枚

次が「数の再現」です。
これ意外に思われる方も多いのではないでしょうか?
「目玉焼きが乗ったパン5枚」というプロンプトで、
全て数が指示通りではありません。

苦手3. 位置関係の再現

緑の車の左にいる大きな牛

次は「位置関係」です。
数の再現と似たような話ですが、これも苦手です。
プロンプトの例が「緑の車の左にいる大きな牛」なので、
左ってどっちからみて左?て話はあると思うんですが、
一貫していないですよね!正面から見た際に左にあったり、右にあったり。
〇〇と□□の間にある△△などもできませんでした。

苦手4. 長文のプロンプト

黄色と黒のストライプのシャツを着て青いバスケットボールを持った男性、赤い髪色、緑のチェックのカップでコーヒーを飲んでいる。

次は「長文のプロンプト」です。
入力したプロンプトは下記です。

Man with blue basketball wearing yellow and black striped shirt, red hair color, drinking coffee in green checkered cup

緑色でチェックのカップや、青色のバスケットボールという指示が無視されています。こういった長くて複雑なプロンプトは苦手です。
プロンプトの後半の要素が無視されやすい印象です。

苦手5. データセットのバイアス

うさぎを食べるにんじん

最後は「データセットのバイアス」です。
プロンプトは「うさぎを食べるにんじん」ですが、
出力結果は主語と述語が反転しています。
これは、学習用のデータセットで、「うさぎ」と「にんじん」の映った画像の多くが、「にんじんを食べるうさぎ」のため、
そのバイアスが働いているためだと考えられます。
こういった問題は、差別的な表現(看護師というワードだと女性が出力されやすいなど)に繋がる可能性があるため、問題視されています。
上の4つの苦手よりも解決が難しいと思います。
サービスを利用する我々も、そういった問題があることを理解して利用することが求められます。

最後に

如何だったでしょうか?
画像生成AIすごーいってなってますが、まだまだ伸び代ありますね!
今後、新しいサービスやバージョンが発表された際も、
こういった苦手をどこまで改善しているかなどで、
性能を調べてみるのも一つの指標になると思います👍

この投稿がためになった方は「スキ」をいただけると投稿の励みになります!画像生成AI周りの情報を発信していきますので、フォローよろしくお願いします!

また、私はAI情報発信者のノーベル氏のLINEオープンチャットなどで講義をしています。初心者から詳しい方まで、とても学びになる無料コミュニティーですので、ご興味のある方は、是非ご参加ください😊


この記事が気に入ったらサポートをしてみませんか?