AIは本当にイラストを「描ける」のか―Diffusionモデルの限界
「写真の中のものは自由に変えられる」
いまやマジック消しゴムだのマジック選択だの、色んな呼ばれ方をしているアレがだいぶ定着し始めました。
うっかり映り込んだ自転車や自動車をなかったことにできる。クジラとコラボもできるし、来れなかった友人を写真に『追加』することだってできちゃう。そして雨天も晴天に早変わり。
ディープフェイクの問題はあるものの、AIは写真に魔法をかけるものとして広まりつつあるみたい。
そう言いたげなCMを見るたび、どうも逆張り精神が働いて、「背景の置き変えはできても「描くこと」はまだまだ難しいんだなあ」なんてことを考えたりします。
『いやいや、画像生成AIはイラストもとっくの昔に生成できるじゃないか』
それはそうなんですけど、そうしゃなくて、イラストを「描かせ」ようとすると、現在主流の拡散系画像生成AI(Diffusionモデル)では限界があるのではとひしひし感じているのです。
私の考えてるAIと「描く」の関係について、1から説明しますね。
AIの機械学習の仕組み
AIは基本的に、教師データを基に学習します。ちゃんとした正解がないと、『何をどうすればいいの?』ってなっちゃいます。
教師データという正解が提示されて初めて、AIの学習が進むのですね。
ということは、データを用意する側が何を「正解」とするかが重要です。
先生の作ったテストを解いたのに、答えはあなたの自由です!って言われたら生徒は怒っちゃいますから。
AIに対して曖昧な正解を提示すると、結果としてAIも混乱してしまいます。
AIに正解のデータを与えて、正解がどのようなものかを学んでもらう。
それを繰り返すうちにAIはどのようなものが正解なのか、傾向を理解していく。
これがざっくりとしたAIの仕組みです。
さて、画像生成AIの話に戻りましょう。写真の場合はどうなるのでしょうか?
……簡単ですね。
日本では、郵便ポストは赤いのが正解。信号機は3色なのが正解。曲がった電柱は不正解。
写真では「物が正しくそこにあれば」正解です。
画角や構図、レンズやフィルター等によってダイナミックな写真を撮ることはできますが「現実世界にある物が正しくそこにある」ことを正解にできます。
「人間の視界と概ね一致していたら正しい」。
写真は何をもって正解とするのがわかりやすいのです。
(もちろん、モデルのタグ付け方法によって差はかなり出ますが、ここではそういうことにしといてください)
イラストレーションにおいても正解がわかるものがあります。
たとえば、アニメーションの中割りです。始点と終点の画像があって「違和感のない中割りを足すことができれば正解」です。
他にもありますね。
動画の人物をアニメ風アバターに変換するとか、イラストから3Dモデルを作るとか、何を正解とすればいいのか明確です。
「描くこと」における正解とは?
ところが、「1からイラストを描くこと」に軸を据えたとき「ままならなさ」が転がってきます。
正解の絵ってなんでしょうか。
デッサンが上手なこと? パースが狂ってないこと? 構図が素晴らしい? 目が魅力的? 色合いがきれい? 色調が整ってる? ハイセンス?
これらはすべて目的や主観に依存するのに、学習させる以上は「なにが正解か」を先に決定しなければなりません。
でもそうすると、教師データのアノテーション(タグ付け)した人間にとっての「好ましい絵」に集約してしまう。
たとえば、「パースが狂っていなくて塗りの明暗づけも上手いこと」を正解としていたとき、パースに忠実に生成させようとすると画像全体まで変動して塗りが変わってしまいます。
それをプロンプトやControlNetで制御したり、加筆で修正してってやっているけれど……それってなんかおかしくない?
AI側の正解に引っ張られたら、ユーザー側はあの手この手で後出しじゃんけんして抗う。
これってなんだか、構造そのものが不便であるように感じるのです。
アノテーションした人間の思う好ましさが、私にとっての好ましさではないとき、どうにもならない不便さを覚えてしまう。
Flux.1とか、テキストに忠実に描けるモデルは確かに増えているけれど……イラスト生成はDiffusionモデルごとにある傾向の差が大きく、率直に言って、今のやり方では不自由なままなんじゃないかと思っています。
AIにイラストを描かせるには
それじゃあ画像生成AIにイラストを「描かせる」にはどうすればいいんでしょうか。
どうすればいいんでしょうね!!
正直、どうすればAIが本当に『描く』ことができるのか、私にもまだ分かりません。
ただ、人間がやる描き方をそのままトレースすればいいという話ではないんだろうなとは思っています。別のアプローチが必要なのかなって。
ちょっとわかりにくい話だけど、人間はまず、物を見て、それをどうデフォルメするか考えてから描き始めます。
物を目で捉え
デフォルメ化(線と色で表現できるよう情報量を調整する)
描き始める
これらの工程が必要なわけで、AIもここを再現しないといけないんじゃないでしょうか。
確かに、その後にも下書き~仕上げと続くけれど、そこを学習させたところで、線画や下絵を出力できるAIになるだけだと思うんです。
だって下絵って、物を目で捉えたあとに行う最終的なアウトプットの一環。
AIが学習するべきなのは、なぜそのような下絵になるのかというプロセスや意図ではないか……というのが私の考えです。
いまの生成AIは、机の上にあるりんごを描くとき「りんごが机の上にあるイラスト丸ごと」を生成している。
でも「りんごが机の上にある構図を想定し、そうあるよう色を付けていく」ほうが自然だと思うし、AIが何がどんな風にあるのか想定しながら描けるようになれば、AI特有の謎オブジェとかも無くなると思います。
けれどそれって「ノイズを少しずつ取り除きながら『りんごが机の上にあるイラスト』に近づける」という今の拡散系画像生成AIとは相性が悪いわけで、じゃあ別の手法や変わったアプローチが必要なのかな、と思った結果がこの記事のタイトル名に繋がるわけですね。
じゃあその手法ってどんなもの? それを実装するにはどうすんの?
と言われれば……閉口するしかないわけですが……。
結局私がAI技術についてこれてないので、この妄言は合ってるか間違っているかもテストできないので、この記事はここでお終い。
というかAIの技術進歩がすごすぎるので、こんな「拡散系画像生成AIの限界について」って堂々と言っておきながら、実はとっくの昔に限界なんてぶち破られていて私が物を知らないだけかも……。
なんだかスッキリしない終わり方になってしまいました。
最後に
ここまで触れていませんでしたが、マーケティングであれば、どのような層をターゲットにしているかによってイラストの正解というのは出せるでしょう。
品質を求めなければ…というのはあるでしょうし、マーケティングには画像生成AIが活用できる、という点が話をすごくややこしくしているなというのは感じています。
だからあえて書くんだけど、現状の正解の模索が極めて難しい画像生成AIには限界があるし、正解を自由に探せる人間の強みは無くなっていません。
まだ生成AIが不完全だからこちらを圧迫してくるように見えるだけで、将来に亘って可能性を狭めるものではなく、むしろもっと正解も選択肢も増やして面白くするものだと私は思っています。
その頃には、生成AIに関わる倫理的な問題やルール等も結論が出ていることでしょう。
AIが人間の役に立つ。人間もAIが役に立つと思ってる。そんな未来が来ると嬉しいな。
この記事が気に入ったらサポートをしてみませんか?