AI画像生成あれこれ（お気持ち＆知見的な）

2022年9月4日 23:59

滝竜三です。最近Stable Diffusionを使った画像生成にハマりまくってます。

Stable Diffusion完全に理解した pic.twitter.com/rnamvtOiJm
— 滝竜三 (@ryu3taki) September 1, 2022

AI画像生成を使ってみたり、周辺の色んな意見を聞いて思ったりしたことが貯まってきたので、今回はそのあたりをチラシの裏に落書きしたいと思います。

前半はお気持ち表明、後半は個人的に感じた使いこなすための考え方とかの話をします。

誤解です！！！！

AI画像生成は確かにこれまでの概念を覆すほどの技術革新です。
プロアマ問わず、イラスト制作のプロセスは大きく変わるでしょう。
ただし、いくら手段が変わってもやることは同じです。人間が想像したものを形にして世に出す、それは変わりません。

AIの使われ方やその仕組みに大きな誤解を持ったままの方も多いのではないでしょうか。
僕はAIの専門家ではないですし、あくまで個人の理解の範疇なので僕自身が間違っている部分もあるかもですが、そのあたりをちょっと語らせてほしいです。話半分に読んでもらえればと思います。

AIが描いた絵は誰のものか？

法的整備は今後されていくと思いますが、現時点での僕の考えです。

Twitterでこんな趣旨の意見を見ました。

AIを使って描いた絵は生成させた人じゃなくてAIをつくった人の手柄じゃないの？

もしかしてですが、AIに「なんかいい感じに描いといて」で完璧な作品が出来上がると思っていませんか？
確かに単純なプロンプトでそこそこ雰囲気のある絵が仕上がる場合もあります。そうしたものは一見クオリティが高くても創作性が低い、というのはそうだと思います。

それはこれまでの仕組みでいうと、素材集などから持ってきたものをそのまま自分の作品として提出するようなものです。
しかし、素材集やブラシを利用しつつも、組み合わせたり書き足したりしてつくった作品はどうでしょうか。これは十分にその人独自の作品と言えると思います。

AI画像生成を使う場合も、思い通りの絵を目指してプロンプトを工夫し、時には自分で手直しをして、AIを通して自分の脳内イメージを具現化させるべくつくった作品であれば、それは十分な創作性があると言えるのではないでしょうか。

それは漫画家がアシスタントに背景を描かせるのと似ています。表に名前の出ないアシスタントの仕事も評価すべきという議論はありますが、基本的には指示を出している漫画家の作品ということで一般に納得されていると思います。

AI画像生成も同様に、作者のイメージを具現化するための手伝いをするだけなのです。

AIは既存の画像を盗用している？

自分の描いた絵が突然AIによって切り刻まれて混ぜられて、誰かの作品になってしまう

こんな感じの意見も見ました。おそらくAIの仕組みについてしっかり調べたり考えたりされたうえで辿り着いた結論だと思います。

感覚的にそう感じるのも分かるのですが、技術的に言うとこれは全くの誤解であると言いたいです。

機械学習によるAIは学習した画像をもとに新しい画像を生成します。
しかしそれは「データベースから既存画像のパーツを組み合わせて新しい画像をつくる」という意味ではありません。

やや話がそれますが、「しゅうまい君」などの文章生成AIをご存じでしょうか。その昔「人工無能」などとして流行ったものもあります。
こうした文章生成AIの最もシンプルな仕組みとして「マルコフ連鎖」というものがあります。
これは「ある単語の次に来る頻度の高い単語」のリストを学習して、つながりやすい単語を連鎖的に並べてそれらしい文章をつくるというものです。

機械学習というのは基本的にどれも、これのもっと複雑なものと言えます。つまり、膨大なデータを統計的に解析して頻度の高い組み合わせを選んでいるということです。

画像生成AIに関してももちろん同じです。例えば「『eye』という単語がついている画像はこのあたりを黒く塗っていることが多い」というようなことを学習しているだけで、学習した目の画像データそのものを持っているわけでも、ましてやそのコラージュをつくっているわけでもありません。もっと言えば「eye」という単語の意味を理解しているわけでもなければ、どうすればより綺麗な目を描けるかを考えたりもしていません。ただ「eye」という単語に結びついて頻繁にでてくる色のパターンを統計的に再現しているだけです。
※正確なアルゴリズムではなくあくまで例えです。

この仕組みを踏まえても、まだ盗用まがいと感じる人もいるかとは思います。ただ、学習済みのモデルデータには画像データそのものを持っているわけではないということだけ理解しておいてほしいです。

AIが自我を持ちだしたらどうするの？

ありえないです（少なくとも今の画像生成AIの延長としては）。
画像生成AIは上記のように学習済みの画像の統計情報のみを持ち、テキストや画像の入力と画像の出力しかできません。

自我を持ったAIとは、例えば学習していないゲームのルールを対話で教えれば人間同様にすぐプレイできるようなものを指します。
Stable Diffusionに今ある機能を使って将棋のルールを教えられるか、と考えれば不可能であるのが分かると思います。

以上、お気持ち表明でした。

使いこなすために考えたあれこれ

ここからは実際に使ってみて感じた、自分なりの「使いこなすための考え方」を語っていこうと思います。
実際の仕組みや高度な数学的考察ではなくあくまで直感的なものですが、例えとして大学数学の概念を使うので、興味のある方だけ読んでもらえればと思います。

空間ベクトルを考える

いきなり造語ですが、「画像空間」というものを考えます。
アニメスタイルのイラストから美麗な水彩画、写真やポップアート、さらには白紙やノイズも含めてこの世に存在しうるあらゆる画像はこの空間上の座標ベクトルで表すことができます。
タッチ、構図、色合いなどの似ている画像はこの空間上でも近くに存在し、逆に似ていない画像はこの空間上でも遠くに存在します。
※重ねて言いますが「画像空間」はあくまでこの記事内での造語です。よそで使わないようにしてください。
※実際のアルゴリズムで「潜在空間」という概念がありこれを参考にした考え方ですが、正確に同じではなさそうなのであえて別の言葉を使います。

「画像空間」は膨大な軸からなる多次元空間ですが、この記事内では簡略化して2次元で表してみます。

「絵を描く」というのはこの画像空間内を手探りながら移動して、目標の画像（の近く）に辿り着く行為と考えることができます。
絵が上手くて手が早い人は目標地点までの最短経路をすばやく正確に移動でき、絵が描けない人はこの空間内で迷子になってしまうということになります。

この空間を考えたとき、AI画像生成とは「文章ベクトルから画像空間ベクトルへ写像する関数」と言えます。
ただし実際のプログラムでは生成物の多様性をつくるため、散弾銃のように周辺にばらけた複数の座標を返すようになっています。

Stable Diffusionでいうとtxt2imgは写像（をばらけさせたもの）をそのまま返すもので、img2imgは入力画像の座標からプロンプトの写像へ向かってstrength分だけ移動させたものを返す、という風に捉えることができます。

これを踏まえて、目標となるイメージを再現するように画像生成することを考えます。

ラフからimg2imgで生成する場合、ラフは構図などは目標に近いですが塗りなどの雰囲気はまったく似ていないとします。この場合、目標からの距離としては遠くなります。

これをプロンプトが示す座標に近づけていきます。プロンプトが適切な表現であればこの座標は目標に近い位置にありますが、正確に一致していることはまずないでしょう。

これをいきなりstrength=0.9とかで近づけてしまうと、ずれた目標に向かってしまい、目標から離れたところで収束してしまいます。

そこで、0.5とか0.3で少し近づけてから軌道修正をおこないます。
つまり人力での加筆修正です。

この加筆修正は「クオリティアップのための修正」ではなく、あくまで「軌道修正のための修正」です。そのため高度な画力で丁寧にレタッチする必要はなく、歪んでいる部分の形を直す、色のおかしいところを塗り直す、パーツの大きさや位置を好みに近づけるといったもので、少々雑でも構いません（ただし完成に近づいた終盤は多少は丁寧にした方がいいでしょう）。

また、特に序盤は生成するたびに大きく崩れてしまうと思います。
ただ、この崩れ方はAIの評価関数にとっては近づけた結果であるということは意識しておいた方がいいです。
全体の作風が崩れてしまっていても気にせず、形が崩れたり気に入らないところだけ修正しましょう。何回か繰り返すうちに目標の作風が見えてきます。

こうして軌道修正と再生成を繰り返して、画像空間内を手探りしながらジグザグに進むことで正確に目標を目指すことができます。

このプロセスはまさに自分で手探りしながら描くのと同じです。ただし画像生成を利用することで飛び飛びに高速でショートカットすることができるのです。

これは逆に、使いこなすためには自分である程度絵が描ける技術とセンスが必要、ということにもなります。
絵が描けない人というのは、たいてい完成系のイメージが十分にできていません。手先の技術だけでなく、こうしたスキルも画力の一部です。ゴールが分からないために画像空間内で迷子になるのです。

こういう人はおそらく未来に脳波からイメージを出力できるようになっても、思い通りの画像は出力できないでしょう。
ゴールが定まっていないということは適切にプロンプトを定めたり軌道修正することができないということになります。そのため、AIを使っても誰でも簡単に思い通りの画像がつくれる、という風にはなかなかならないでしょう（なんかそれっぽい画像は簡単につくれても、創作物として耐えうるものは結局簡単ではないということ）。
ただし近いうちにAI画像生成に特化した技術を習得し、自分では描けないがAIを駆使して良質な絵を描く新時代のイラストレーターは現れると思います。

最後に

AI画像生成はあくまでも用途によって使い分けるべき「道具」のひとつです。
もちろん趣味で描いていて、絵を描くプロセスが好きな人には不要でしょう。無理に便利なものを使う必要はありません、歩くのが好きなら車や自転車に乗らなくていいのです。
しかし完成した作品を通して自分の世界を表現したい人にとっては、このショートカットは強力な味方になると思います。
自分のやりたいことに合わせて適切に「道具」を選びましょう。

この記事が気に入ったらサポートをしてみませんか？