DALL-E3で生成した画像をStable Diffusionで修正する

2023年11月24日 08:47

漫画や小説の挿絵で使おうと、DALL-E3で画像生成していると、凄く良い絵なのに微妙にキャラクターにイメージと異なっている部分があり「非常に惜しい！」ということがあります。画面IDとシード値を指定して修正依頼もしますが…思ったより上手くいかない事が多いです。

これを手作業で修正しようとすると、微小な修正でも…周りの色や形に合わせて修正する必要があるので…簡単ではありません。

そこで、現在、私が利用できる環境でサクッと（無料で！）修正出来ないか？…というところで…

と考えました。

なお、今回の事を行うには、GPU付きのPCか、Google Colabratory Proの環境が必要となります。Stable Diffusion Web UIの使い方の解説については、多くの方々がしていると思いますので割愛しますね。

まず、修正したい絵は写真ではなく「アニメ調の絵」ですので、Stable Diffusionをそのまま利用するのは好ましくありません。まずは目的に合ったモデル選びが必要になります。
今回は下記を利用することにします。

さて、このAnything V5、DALL-E3とどれぐらい違うのでしょう？
Anything V5とDALL-E3に同じプロンプトを与え、生成された画像を比較してみましょう。

Anything V5はプロンプトを頑張ってないので、クオリティが低いのかもしれません。それでも結構な枚数の中から厳選しています。そもそも人物を２人描くという用途は厳しそうです。

ここまでレベルの差があるとちょっと不安になってきましたが…気を取り直してAnything V5に修正させてみましょう。

この画像の女の子に眼鏡を掛けさせてみましょう！

image2image（画像から画像を生成）の機能を利用し、眼鏡部分のみ生成するように、生成範囲を指定します。
プロンプトは"round glasses"のみとしています。

目の周りに白く塗りつぶされた領域がありますよね？この部分のみ画像生成されることとなります。

DALL-E3と異なり、何枚でも生成できます。また、何枚生成しても無料です。ガチャに当たるかも？ぐらいの感覚でBatch countを増やして１０枚ほど一気に生成して良い画像を選んでみましょう！

思ったより、いけました！
この画像の他に、沢山の失敗画像があります。つまり、DALL-E3とは異なり、質より量で勝負する感じですね。

先ほどは無いものを追加しましたので、次はあるものを無くしてみましょう。下記の画像の女の子は帽子をかぶらないキャラクターのため、外したいと思います。

先ほどと同じように生成する範囲を指定して、プロンプトに"Straight short hair lackluster"を与えてみます。

先ほどと同じように沢山生成して、良い画像を選びましょう！

いけました！
これは、意外に良いのではないかと思います。

複数人の人物を生成する場合、キャラクターの特徴が別の人物に適用されることは多々ありますので、これが出来ると便利ですね！

やってみた感想としては…大きな範囲を修正するのは厳しいという感じですね。顔の修正は比較的上手くいくのですが…手が含まれる修正は絶望的です…

元絵は下記になります。

これを修正して、下記ような感じにしてみました。DALL-E3の良さを残しながら、キャラクターのイメージを変えれているのではないでしょうか？

ここで、鼻の位置が…となると、終わらない作業になりそうなので…妥協も必要ですね！

あと、DALL-E3では、ほんの少しの肌の露出でもエラーになるようなので、漫画で定番の水着やお風呂のシーンは絶対に描けません。
その場合はDALL-E3で長袖、長ズボンのジャージでも着させて生成、それを元に修正すれば…いけるのかな？

…という感じで、皆さんも試してみて下さい！

いいなと思ったら応援しよう！

#AIとやってみた

37,821件