見出し画像

DALL-E3で生成した画像をStable Diffusionで修正する

DALL-E3いいですよね!

漫画や小説の挿絵で使おうと、DALL-E3で画像生成していると、凄く良い絵なのに微妙にキャラクターにイメージと異なっている部分があり「非常に惜しい!」ということがあります。画面IDとシード値を指定して修正依頼もしますが…思ったより上手くいかない事が多いです。

これを手作業で修正しようとすると、微小な修正でも…周りの色や形に合わせて修正する必要があるので…簡単ではありません。

そこで、現在、私が利用できる環境でサクッと(無料で!)修正出来ないか?…というところで…

Stable Diffusion Web UI (AUTOMATIC1111)で修正しよう!

と考えました。

なお、今回の事を行うには、GPU付きのPCか、Google Colabratory Proの環境が必要となります。Stable Diffusion Web UIの使い方の解説については、多くの方々がしていると思いますので割愛しますね。

まず、修正したい絵は写真ではなく「アニメ調の絵」ですので、Stable Diffusionをそのまま利用するのは好ましくありません。まずは目的に合ったモデル選びが必要になります。
今回は下記を利用することにします。

さて、このAnything V5、DALL-E3とどれぐらい違うのでしょう?
Anything V5とDALL-E3に同じプロンプトを与え、生成された画像を比較してみましょう。

【Anything V5】

【DALL-E3】

DALL-E3のクオリティ!凄すぎです!

Anything V5はプロンプトを頑張ってないので、クオリティが低いのかもしれません。それでも結構な枚数の中から厳選しています。そもそも人物を2人描くという用途は厳しそうです。

ここまでレベルの差があるとちょっと不安になってきましたが…気を取り直してAnything V5に修正させてみましょう。

眼鏡をかけさせる

この画像の女の子に眼鏡を掛けさせてみましょう!

image2image(画像から画像を生成)の機能を利用し、眼鏡部分のみ生成するように、生成範囲を指定します。
プロンプトは"round glasses"のみとしています。

目の周りに白く塗りつぶされた領域がありますよね?この部分のみ画像生成されることとなります。

DALL-E3と異なり、何枚でも生成できます。また、何枚生成しても無料です。ガチャに当たるかも?ぐらいの感覚でBatch countを増やして10枚ほど一気に生成して良い画像を選んでみましょう!

思ったより、いけました!
この画像の他に、沢山の失敗画像があります。つまり、DALL-E3とは異なり、質より量で勝負する感じですね。

帽子をなくす

先ほどは無いものを追加しましたので、次はあるものを無くしてみましょう。下記の画像の女の子は帽子をかぶらないキャラクターのため、外したいと思います。

先ほどと同じように生成する範囲を指定して、プロンプトに"Straight short hair lackluster"を与えてみます。

先ほどと同じように沢山生成して、良い画像を選びましょう!

いけました!
これは、意外に良いのではないかと思います。

複数人の人物を生成する場合、キャラクターの特徴が別の人物に適用されることは多々ありますので、これが出来ると便利ですね!

やってみた感想としては…大きな範囲を修正するのは厳しいという感じですね。顔の修正は比較的上手くいくのですが…手が含まれる修正は絶望的です…

細かく範囲指定・プロンプト指示して全体的に修正してみる

元絵は下記になります。

これを修正して、下記ような感じにしてみました。DALL-E3の良さを残しながら、キャラクターのイメージを変えれているのではないでしょうか?

ここで、鼻の位置が…となると、終わらない作業になりそうなので…妥協も必要ですね!

あと、DALL-E3では、ほんの少しの肌の露出でもエラーになるようなので、漫画で定番の水着やお風呂のシーンは絶対に描けません。
その場合はDALL-E3で長袖、長ズボンのジャージでも着させて生成、それを元に修正すれば…いけるのかな?

…という感じで、皆さんも試してみて下さい!


いいなと思ったら応援しよう!

この記事が参加している募集