見出し画像

画像生成AIの限界について(2023年8月時点)


はじめに

世間では、画像生成AIを取り巻く話題で事欠かない日々が続いている。
学習に使用された絵の権利についてや、AI推進派、AI否定派、それぞれの派閥における過激派同士での誹謗中傷合戦。
画像生成AIを使用した事によるマネタイズ問題もそうだし、画像生成AIの登場、主に Stable Diffusion の登場によって、美大生が筆を折ったという話まで出てきている。
このnoteでは、画像生成AIの登場で筆を折る必要もなければ、画像生成AIは手描きの絵描きから見て「戦う相手にすらならない」という事を順を追って説明していく。

私について

私は主に3DCGの作品制作を行ってきた。Blenderでのモデリングや、3DCGを使ったコミック作品(アダルト向け)もいくつか販売してきた。

https://www.pixiv.net/users/544737

そんなある時出会ったのが画像生成AIだ。作品のクオリティアップあるいは作品のアイディア出しなど、作品のワークフローに取り込めたりしないだろうかと、1年以上前から画像生成AIを調査していた。

Stable Diffusion の出る前の Disco Diffusion、またその前の VQGAN+CLIP の時代から情報を追ってきて、Novel AI や Midjourney も課金して使用してきたが、先に述べたような「筆を折る」うんぬんの話が出てきて、私は疑問を感じた。
画像生成AIは人が筆を折るだけの価値があるのか?
その疑問が私がこの note を書くきっかけだ。

画像生成AIの登場で筆を折るべきか否か

私の結論を言うと、現時点(2023年8月時点)において

画像生成AIには「人が筆を折るほどの価値は無い」

確かに見た目やクオリティは高く見えるが、はっきり言って人の描くものには全く及ばない。こんなもののための筆を折るのはバカげているし、絵描きやクリエイターは、画像生成AIの推進派を鼻息で飛ばせるだろう、というのが私の考えだ。

理由は簡単で
画像生成AI(text2img)は、正解を描く事が出来ない
からである。

この note では、画像生成 AI について書いているが、特に Stable Diffusion の text2img についての見解を書いている。
(LoRA や ControlNet については別途記事を書く)

筆を折った人も、AI否定派もそうだが「画像生成AIに何が出来て何が出来ないのかを見定める事をしていない」(試す前から決めつけて判断している)という事が多々見受けられる。

そういった方のためにも、何が出来て何が出来ないかを明確にしていきたい。

人と、画像生成AIの絵の学習方法の違い

巷でよく言われるAIの学習についてだが、

  • 人とAIは、絵を見て学ぶプロセスは一緒

  • 学習方法に差は無い

という事を言われる事がある。だがこれは大きな間違いである。
AIと人の絵の描き方は全く異なるし、学習の内容も全く異なる。

まずAIは既に存在する絵の特徴などのベクトルを2次元的に学習する。これは人も同じだと言われるが実際には、人は絵を2次元的+3次元的に学習している。

例えば誰も見たことの無いような不思議な形の椅子があったとする。この椅子の外観の画像をAIに学習させた上で「不思議な椅子を下から見た絵を描け」と命令してもAIは絶対に描く事は出来ない。AIは画像を2次元的にしか学習していないので、資料の無いアングルからの絵は描けない
でも人は違う。不思議な椅子の絵を学習した上で、それを下から見た様子を頭の中で想像して描く事が出来る。資料が無いにも関わらず。
これは人が2次元の絵を3次元的に理解、認識する事が出来るからだ。これは今の画像生成AIには出来ない。AIに想像力や空間把握能力は無い

またAIに1億枚の絵を描かせても絵が上手くなる事はない。だが人は描けば描くほど少しずつ上達していく。これは人は線を1つ描くごとに、この線は良い、この線は悪い、こう描くと上手に描ける、という判断が出来て、少しずつ最適化しながら成長するためであるが、AIにはそのような機能は無いし、AIにそのような機能を持たせる事は困難である。AIは何枚絵を描かせ続けたところで進歩する事は無い。画像生成AIは所詮道具である。人が改良していくしか成長の方法が無い。

AIと人の絵の学び方、捉え方、成長の方法は全く異なる。

また、たまに「AIは既存の絵の切り貼りである」という事も聞かれるが、これは全くの間違いだ。なぜなら既存の絵を切り貼りした方がまだ絵が上手だからだ。それくらいAIの絵は別物が出る。

順を追って説明していく。

画像生成AI(text2img)に出来ない事

最初で「AIは正解を描けない」と言ったが、パッと見の画像生成AIの出す画像は非常に高いクオリティの絵のように見える。しかし実は出来ない事がとても多く不正確な絵が非常に非常に多い
もし「画像生成AIが万能だ」という人がいたら頭を疑った方が良い

実例をいくつか出していく

画像生成AIはモノを使うのがとにかく苦手

AIはとにかく、何か物を使うのが苦手である。
例えば弓道。

実際にAI(Stable Diffusion)に「弓道をしている少女」を描いてもらったが、何を持ってるか分からない。イラストとして見ると可愛いが、少なくとも弓を弾き絞る動作はしてくれない。30枚近く試行錯誤してコレである。

弓道している少女というテーマで、StableDiffusion で作成

雰囲気はある。しかし全く弓道していない
もっとシンプルなプロンプトなら……と思いチャレンジしたが、もはや料理を始めてしまった。

women who squeeze the bow,kyudo, Negative prompt: (worst quality, low quality:1.3),monochrome,

結局50枚ほど作った所であきらめた。
AIは「弓道は出来ない」と言っても嘘ではない。少なくともとても出にくい

これは先の話とも関係あるが、AIは「弓」という道具の形状も特性も正確に理解していない。AIは2次元的な絵の上のベクトル上で弓を理解し(理解出来てないが)3次元的に本来の弓の形や弓を引くとどうなるか、どこを持つべきかといった常識は全く理解出来ないし、それを再現する事も出来ない。これが画像生成AIの現状である。

なお作れないものはこれだけ留まらない。あらゆる膨大な数の道具や物が描けないが、特に自分が気になるのは「AI はバナナを剥けない」である。

自分の理解は、このような状態を「剥かれたバナナ」と認識している。

私が作った3DCGの画像

では実際に、AIに描いてもらう。

バナナを剥いて食べる少女というテーマで StableDiffusion で作成

バ……バナナ?バナナなんだろうか。プロンプトには確かに剥いたバナナと指定した。しかしその持っている物は何なのか。
プロンプトを更に長く細かくしていしてみる。

(eating) girl, (peeling banana), banana in hand, enjoying, youthful expression, casual clothing, simple background, sitting or standing, moment of daily life, food enjoyment, (lone figure), sweet treat, innocence, serenity, observational focus Negative prompt: (worst quality, low quality:1.3),monochrome,

絵は可愛いけど、バナナを皮ごと食べている。こちらも20枚ほどチャレンジしたが無理だった。
もうお気づきかと思うが、AIは剥いていない皮のままのバナナを「バナナ」として認識しており、AIはバナナが剥けるものだとは思っていないし、剥く気も無い

AI が絵を切り貼りして描いていれば剝いたバナナも描けるはずだが、それは一切出来ない。切り貼りした方がマシである。

このように、AIによる「2次元的な理解」のみで絵を描かれると、表現者が表現したくてもAIが描いてくれないものやシーンが多々出てくる。結果的に画像生成AIで道具系は全てダメだと思った方が良い。たまたま綺麗に出てくれたら超絶ラッキー、というレベルである。
逆に食べ物単体(人物を含まない)であれば上手く描かれるものもある(焼肉単体であれば上手。ただし謎肉)しかしそれでも上手くいかないケースが多い。

  • 形状の状態が変化しやすい物体

  • マイナーな物

これらはAIに描かせるべきではない。

また更に描けないものとして例を挙げると建築物がある。

(cityscape) (office building) walking girl, (business district) evening, (short hair) business attire, serious expression, pavement, bustling city life, high heels, (slender figure), reflection in glass windows, urban landscape, calm demeanor, (focused gaze), carrying briefcase, surrounded by professionals, modern architecture Negative prompt: (worst quality, low quality:1.3),monochrome,

一見何も問題ないようにも見えるが、よく見るといろいろと謎な構造。

窓の間隔が酷く不揃いな窓。こんなビルはありえない。

取っ手のような部分がかなり高い位置についているが、蝶番も無くどう開くんだそれ状態。構造も、カバンの上と下で異なっているように見える。

これも先に述べたが、AIは2次元的にしか絵を理解出来ておらず、3次元的な構造は全く理解していない。書かれた絵がなんとなくそれっぽく感じるのは「学習元の絵がそうなってたから」というレベルで、その詳細な構造は適当に描かれており。正確性は無い。

横断歩道などを描かせても、めちゃくちゃな白い線を地面に描きまくるので、横断歩道として成立しない。

他にも見てみよう。

(splashing water) (swimsuit) girl, poolside, summer day, (bright smile), playing with water toys, surrounded by friends, clear blue water, reflection in sunglasses, laughter in the air, carefree youth, vibrant colors, sun-kissed skin, refreshing breeze, distant sound of music, relaxation, fun-filled afternoon at the pool. Negative prompt: (worst quality, low quality:1.3),monochrome,

手が変なのはさておき、実に魅力的な女性がプールで遊んでいるが「あんたどこに立ってんの」状態である。排水溝かな?

これも先の話と同じであるがAIは2次元的に理解(中略)

結局のところ「AIのみに描かせる」を目的とすると、正確に描けないものがほとんどという事になってしまう。

描けないものまとめ

AI は「現実にある何かを正確に再現する事が出来ない。これは AI 自身に「1度描いたキャラを別アングルで描いて」も無理だ(絵を寄せる事は出来るが)プロンプトや設定を少しでも変えた時点で全く異なる絵を描くし、衣装やアクセサリも変わってしまう。そして現実にある道具を再現してとお願いしても毎回違うものを描いてしまうし、ほぼ確実に変な形にしてしまう。

これが最初に述べた「AIは正解を描けない」の正体だ。人が本当に描いて欲しいもの、正解を細かくすればするほど、AIは全く再現出来ない事に気が付く。

これは単純に学習元の資料が足りていないという点もあるが、何億枚あろうと、AIが画像を2次元的に理解している限り再現出来ない物は絶えないだろう。

ちゃんと描けるのはせいぜい、人物の顔とおっぱいくらいだ。

更に言うと、人体のポーズもかなり限界がある。
画像生成AIは、ポーズのバリエーション少ない、と感じた人がいるかもしれないが、結局、文字でそれを指示しなければならないため取ってほしいポーズを明確に指定する言葉が無い時に調整出来ないのである。
(ちょっと足を右、や右足の指だけ開いて、という指示はプロンプトでは絶対に出来ないし指定しても効果がない)
少しでも複雑なポーズを指定すると絵の中の人体が壊れてしまい絵の失敗率が上がるため、そもそも複雑なポーズは避けがちでシンプルなポーズの絵ばかりになる。

画像生成AIを初めて触った人は、その高品質さと速さに驚く。そしてこのシンプルな文字(プロンプト)の指定だけで良くこの絵が出るな、と感心するだろう。そこが逆に弱点で、詳細なポーズやアクセサリなどをAIに指示しても、AIが指示を無視する(表現出来ない)という事が多々発生する。プロンプトを描いた後はAIに任せて天に祈るしか出来ない。

これらを解決するために ControlNet や LoRA という技術が開発され、かなり改善した。しかしこれも完璧ではない。AIの学習元に少ないポーズを ControlNet で無理やり指定すると、奇妙な物体やグロテスクな画像を生成してしまう。
(ControlNet や img2img の活用については別途記事をまとめる予定)

AIが描く手

画像生成AIは手が描けないと言われていたが、最近の AI はかなり改善が見られる。指の数も間違えにくく、形も割とマシになってきた。ただし改善が見られるのはシンプルな形の手である場合のみだ。

Stable Diffusion で作成

ちょっと両手を結ぶようにしただけで、手が酷い事になる。クリーチャーの誕生である。

手の部分のみ拡大

これは絵の中に登場する人数にかかわらず、1人の場合でも2人の人間が手をつなぐ場合でも指はクリーチャーと化す。そのため AI 画像を生成する人間は、こういう手のつなぎ方の画像を作らない。9割の確率でクリーチャーが生まれるためだ。
(もしくは諦めて、クリーチャーの指のまま画像が公開される)

これらも結局、画像生成AIは、2次元的に事象を理解して描いており、3次元的に把握できていないため、その場の雰囲気だけで手を3つ描いてしまったり、指をつなげてしまったりする。

画像生成AIでは、物体の3次元的な理解が出来ない限り、これらの問題は解消しない。今はそれは出来ていない(2023年8月時点)

画像生成AIの得意な事・活用すべきケース

では画像生成AIには何を描けるのか、何をどう描くべきかを考える。
今まで否定しすぎて、描けないものばかり挙げてきたが、今度は逆のパターン。

これは先ほどまでの否定の反対。つまり

  • 道具を使わず

  • 複雑なポーズをとらず(出来るだけ手を出さず)

  • 場所は雰囲気だけ

である。となると、結局描けるのは「ポートレート(肖像画)」となる。実際画像生成AIで生成されたキャラクター画像を見て頂きたい。実際ほぼポートレートになっている。つまり画像生成AIはポートレート生成マシンだったのだ。

「AI画像は見飽きた」というコメントも多々見受けられるが、これの正体は結局「美女のポートレートかコンセプトアート」ばかりで「バリエーションの少ない構図」の絵が大量に出回っており、似たような構図の絵を沢山見てしまう事が原因と思われる。

先ほどまでは、現実の道具や食べ物も建築物もAIは理解せずに描いているからめちゃくちゃだ、としていたが、実はそれを逆手に取る方法がある。

「正解のあるものを描かせず、正解の無いものを描かせる」という方法だ。

例えばこう

私が画像生成AI(Stable Diffusion)で作成

「実在しない衣装に実在しないアクセサリに実在しない場所にいる」というもの。つまりこれは「実在しないデザインのため正解が存在しない」これはAIは非常に得意な分野である。

特に「世界に存在しない」という意味ではSFや抽象画などが非常に上手である。空想の世界設定や抽象画では「正しい」の定義が存在しないからだ。どんな衣装でもいいし、どんな変な機械があってもいいし、指が6本でも10本でも、髪と壁と繋がっていても全て正解になり違和感が無くなる

私が画像生成AI(Stable Diffusion)で作成

「正解が無い」という前提であれば、正直何が描かれても正しい。自然の木々の風景を描いてもそうだ(1本1本の木々の形には正解が無い)
人が明確に定義した「正解の物体・道具」をAIが描けないのであれば、逆に正解が無いジャンルを描かせる事は強みとなる。

またこのSFの例で言うと、人物を含まなくても良く、
特に「コンセプトアート」は更に強い

私が画像生成AI(Stable Diffusion)で作成

高速に、そして正解の無い建築物を、非常に高い密度で描き出すAIには圧巻である。

「コンセプトアート」「抽象画」の他「自然の風景の絵」も得意で、ある意味で自然に違和感無く受け入れられやすい。

AIの限界

これまで述べてきたようにAIは「正解の無いもの」を描くのが非常に得意であり、逆に正解があるものを描かせると間違いだらけになってしまう(AIが生成した絵の別アングルの絵も描けない)

これはアーティストが明確に表現したいデザインやコンセプトがある場合に、それを画像生成AI(text2img)では描くことが出来ないという事を意味する。

逆に、アイディアやコンセプトだけが欲しい場合や、AIに全部任せて良いと思っている場合、AIに厳密な正解を求めない。そういう人には AI (text2img)が適しているだろう。

一番最初の話に戻るが、人は画像生成AIの登場によって筆を折るべきかは間違いである。
絵の中に登場する全ての物に意味やメッセージ性、ストーリー性を持たせるようなアートは、画像生成AI(text2img)では生成出来ない
このような絵は人間にしか描けない

AIの描く絵は、細部になれば細部になるほど、超絶適当な描写になり意味不明になる。細部に魂を宿せるのは人にしか出来ない。
画像生成AIは、ただ見た目が綺麗なだけなポートレートを作成出来るだけである。

AI活用法

AIは「正解の無い」「ポートレート」や「コンセプトアート」を作成するのが得意であるため、見たことも無い資料のアイディア出しにAIを使用する、という事が可能である。
AIは「別アングル」の注文を出せないため(完璧ではないため)別アングルや別表情などの絵は、複雑な衣装であればあるほど、人が描くしかない
衣装やシーンのアイディアだけはAIに出してもらい、それをベースに手描きで絵を描くのが有効な活用法となる。

また画像生成AIの特徴として、その画像生成の速さがある。例えば動的にユーザーのリクエストに応じて画像が必要なケース。ゲームの背景であったり、何らかのユーザー入力で動的に画像が必要なケース(人物のアイコンやアバターなど)では、リクエストに応じてリアルタイムに人が絵を描くと時間がかかってしまうため、AIがリアルタイムに生成するケースが考えられる。

イラストの発注のようなケースで言えばプロトタイプの作成、発注者がイラストレーターに描いてほしい画像のイメージやデザインのイメージを伝える際にも使える。イラストレーターに言葉で頼んで何度もリテイクしていくよりは、発注者がイメージするものをAIで1枚作製し、それを案として複数ポーズや別表情などを人間が描いた方が認識のズレが少なくなる(イラストレーターの負担が減る)という事が考えられる。

AIが天敵となりうるケース

AIの登場で筆を折る必要は無い、と言ったが、ただジャンルによっては筆を折ってしまうケースがあるかもしれない。それは「ソシャゲ絵」だ。

StableDiffusion で作成

「正解が無く」そして「ポートレート」そして「(AIが苦手な)道具を無理に使わなくても成立する」
このAIが得意なジャンルは、ソシャゲ絵が当てはまる。また普段からこの手のポートレートやコンセプトアートの絵を描いている人にも当てはまってしまう。これらの人にとっては画像生成 AI には危機感を覚える可能性がある。

ただ先にも述べたが、AIは複雑なポーズや構図や道具は絵が壊れるため、シンプルなポーズしか出来ない。道具を使ったり、現実にある何かを使う事も出来ないため、それら「複雑なポーズ」や「小道具の使用」を成そうとすると、結局、人が描くしかなくなってくる。差別化ポイントはそのあたりだ。

ソシャゲ絵を描く人でも AI の活用法が無い訳ではなく、先に述べた「AI をコンセプトアート」として使用する方法は生かしやすい。AIは高速にデザインのアイディアを大量に出せるため、気に入ったデザインを切り貼りし、自分の好みのデザインを作り出すのに役立つ(Pinterest を探すより早いかもしれない)

おわりに

自分は画像生成AI(text2img)を使う事に飽きがきてしまった。
理由は2つ思い当たる。

  1. 画像生成AIが生成した画像が正常かどうかを診断する作業に虚無感を覚えるようになった事

  2. 本当に表現したいものをAIが表現してくれない事に対するストレス

である。

まるで画像生成AIに使われるかのように、延々と生成された画像をチェックするのはなかなかの苦行である。特に難しい絵にチャレンジすると、何百枚と画像をチェックする必要が出てくるし、生成された画像が、人間が崩れたグロ画像のようなものばかりだと、なかなか気が滅入る。

面白い絵が出る事もあるが、まるで「AIに使われてる」ような気持ちになってくる。

かといって画像生成 AI を、何か表現として使用しようとすると、あまりに出来ない事が多く絶望する。

これでは表現者というよりAIが出した画像に異常が無いかチェックするだけの評価者である

この note で書いたのは、text2img に対しての説明であるが、ただ画像生成 AI を表現のツールとして使えない訳ではない。それは ControlNet や img2img、inpaint、LoRA などを活用し
「画像生成 AI をポストプロセスとして使う」
「画像生成 AI を作品制作の補助として使う」
という方法
だ。
これらを活用する事で、今まで 画像生成AI(text2img)が苦手だった事を人が補助したり、逆に人の作品制作をAIに補助させる事が可能になる。

これは、3DCG や手描きイラストレーターにとっても大変有効な機能である。こちらの機能は正直、全てのクリエイターの作品制作の速度アップやクオリティアップに有効だと思う。

AIは所詮道具である。道具とは時代と共に便利になっていき、クリエイターの生産性を上げていくものである。
AIはクリエイターが使ってこそ活きるのではないかと考えている。

この、クリエイターによる画像生成 AI の活用法については、また後日 note を書こうと思う。

いいなと思ったら応援しよう!