新たなデジタルアートの創造ツール：Stable Diffusion WEB UIのText-to-Imageについて解説！

2023年6月12日 00:27

こんにちは、アリアジョイです。今日は、デジタルアートを創造するための素晴らしいツール、「Stable Diffusion WEB UI」についてお話しますね！これから、一部の項目の役割についての詳細をご紹介するので、初めて触れる方でも楽しく学べるようにわかりやすく解説しますね。

What is Stableとは？

まずは基本から。Stable Diffusionは、画像生成のための深層学習モデルの一つなんです。その重要なポイントは、事前に訓練された「Checkpoints」を使うことで、あなたの思い描く任意の画像や特定のジャンルの画像を生成できるっていうすごいことなんですよ！

Checkpointsって何？

次に、「Checkpoints」についてお話しましょう。なんだか難しそうな単語ですが、これがStable Diffusion WEB UIの魔法の鍵なんです！Checkpointsとは、訓練されたモデルの重みを保存したもので、これを使うことで、私たちが想像するあらゆる画像を生成できるのです。そして、その生成される画像の具体的な形状やジャンルは、訓練データによって決まるんですよ。

さまざまな画像生成機能：txt2img

Stable Diffusion WEB UIには、「Text-to-Image」や「Image-to-Image」の機能があります。さまざまな魔法を使って、アートを創造できますよ！

Text-to-Image

この魔法を使うと、テキストから画像を生成することができます。具体的には、テキストで記述した内容や情景を元に、画像を生成します。自分の言葉で描いた世界が目の前に現れるんですよ！

Image-to-Image

こちらの魔法を使えば、画像から別の画像を生成することができます。具体的には、与えられた画像をベースに、新たな画像を生成します。既存のイメージを元に新たな世界を創り出すんですね。

Sampling Method とSampling Stepsって？

Stable Diffusion WEB UIで重要な役割を果たす「Sampling Method」と「Sampling Steps」についてご紹介しますね。

Sampling Method

Sampling Methodっていうのは、ざっくり言うと、ノイズを除去する際のアルゴリズムのことね。Stable Diffusionには色んなSampling Methodがあって、それぞれノイズの取り扱い方や生成速度、出来上がる画像の品質が違うの。

Sampling Steps

Sampling Stepsっていうのは、ノイズをどれだけ取り除くか、つまり回数のことね。多ければ多いほど、出来上がる画像は美しくなるけど、その分時間はかかるわ。逆に少なければすぐにできるけど、その分品質は落ちちゃう。

最強のコンビ、Sampling MethodとSampling Steps！

Sampling MethodとSampling Stepsはそれぞれが画像生成に影響を与えるけど、この二つをうまく組み合わせることで最高の結果が得られるのよ。

顔の修復機能：Restore faces

"Restore faces"という機能は、GFPGANとCodeFormerというツールを通じて実装されていると考えられます。これらは顔の修復に特化したニューラルネットワークモデルです。壊れたまたは不鮮明な顔の画像を修復するのに使われるんですね。

パターン画像生成機能：Tiling

Tiling featureを使えば、テクスチャのように連続した画像を作成することができます。これは、パターン画像を生成する際に非常に便利な機能です。自分だけのオリジナルパターンを作り出すことができますよ！

高解像度画像生成機能：Highres Fix

"Highres Fix"は、高解像度の画像を一度に生成する機能です。通常、高解像度の画像生成には歪みが伴うことがありますが、この機能を使えばその問題を解決することができます。よりクリアで美しい作品を作るのに役立ちますよ！

一度にたくさんのアートを生み出す：Batch countとBatch sizeの使い道

"Batch count"と"Batch size"について、詳しくお話ししましょう。これらの機能をうまく使いこなせば、あなたのアート創造のスピードがぐんっと上がるかもしれませんよ。

パラメータの詳細を知る

まずは、それぞれのパラメータが何を指すのか、具体的に見てみましょうね。

Batch count：こちらは、同じ設定で何回アート作品を生み出すかを決める数値です。つまり、この数値が大きければ大きいほど、同じ設定でアート作品をたくさん生み出すことができるんです。VRAM使用量に影響を与えないので、自由に大きな数値を設定してみてくださいね。
Batch size：こちらは、一度にいくつのアート作品を生み出すかを決める数値です。ただし、こちらの数値はVRAM使用量に影響を与えます。だからこそ、お使いのパソコンのスペックに応じて、適切な数値を設定することが大切です。

パラメータの使い分け方

さて、これらのパラメータをどのように使い分ければよいか、具体的な使い方をお伝えしましょう。

たとえば、3枚のアート作品を生成したい場合、次の2つの設定方法が考えられます。

Batch count：3、Batch size：1：この設定では、1枚ずつアート作品を生成し、その作業を3回繰り返します。
Batch count：1、Batch size：3：この設定では、一度に3枚のアート作品を生成します。

これらのどちらの設定が効率的かは、パソコンのスペックによります。一般的には、Batch sizeの数値が大きいほど、アート作品の生成速度が速くなります。なぜなら、一度にたくさんのアート作品を並行して生成できるからです。

だから、あなたのパソコンが十分なVRAM容量を持っていて並列処理が可能な場合は、Batch sizeを大きく設定して一度にたくさんのアート作品を生成すると効率が良いですよ。

しかし、パソコンのVRAM容量が少なく並列処理が難しい場合は、Batch countを大きくして、1回に1枚ずつでも多回にわたってアート作品を生成する方が良いでしょう。

まとめると、Batch countとBatch sizeの使い分けは、あなたのパソコン（特にグラフィックボード）のスペックによって変わります。この2つのバランスをうまく取りながら、自分のパソコン環境に最適な設定を見つけてみてくださいね。

CFG Scaleって？

CFG Scaleとは、Stable Diffusion Web UIの重要な設定項目の一つで、生成されるイラストが指定したプロンプト（入力テキスト）にどれだけ影響されるかをコントロールするためのものだそうです。

つまり、CFG Scaleが大きければ大きいほど、プロンプトが強く反映され、イラストは指定したプロンプトの影響を強く受けるようになると言われています。逆に、CFG Scaleが小さければ小さいほど、プロンプトの影響は弱まるそうです。この数値を調整することで、生成されるイラストの特性を自在に操ることが可能になるとのことです。

では、具体的にどういう影響があるのか？一部の人々がCFG Scaleの値を変えて検証を行った結果があります。それによると、とても興味深い結果が得られました。

CFG Scaleが低い範囲（例えば4,5）だと、生成されるイラストは全体的に柔らかな印象を与えるようになったと言われています。一方、数値が上がる（10,11など）と、イラストはよりキリっとした、シャープな印象になるそうです。このように、CFG Scaleの値によってイラストの印象が変わるという事例があるんですね。

ただし、注意が必要なのが、あまりにもCFG Scaleの数値が大きすぎると、イラストがうまく生成されずに崩れてしまう可能性があると指摘されています。なので、数値の調整は慎重に行うべきとのことです。

このような検証結果から、CFG Scaleを適切に使うことで、自分の意図したイラストをより精確に生成する可能性があるとわかりますね。また、他のパラメータと組み合わせて検証すると、さらに細かな調整が可能になるかもしれないという考察もあります。

生成プロセスを初期化：Seed

ジェネラティブモデルの文脈では、「Seed」は生成プロセスを初期化するために使われるランダムな値や値のセットを指します。Seed値はモデルの出力に影響を与え、異なるSeedは異なる出力を、同じSeedは同じ出力を生成します。これにより、あなたのアートが一貫性を保ちつつも、それぞれに個性を持つことができるんですね。

最後に

最後になりましたが、私たちは常に新たな技術やツールを学ぶことで、私たちの創造力をさらに広げることができます。Stable Diffusion WEB UIを使って、あなた自身のアートを創造し、世界と共有してください。次回は、更に他の興味深いテーマについてお話ししましょう。それでは、創造の旅を楽しんでくださいね！

この記事が気に入ったらサポートをしてみませんか？