Draw Things(画面設定説明)

2023年5月20日 12:24

起動したら画面の左側に並んだメニューでパラメータを指定できる。
詳細なところまでの設定はないが、一通りのメジャーなパラメータは揃っている。
使い方もそのまま書いてある（英語）
ブラウザベースではないので自動翻訳して表示出来ないのが辛いところ。
しかし何が書いてあるかは気になるので、紆余曲折して翻訳してみた。
バージョンが変わると、変更や追加されることもあると思うけど、今時点の自分への備忘録として記しておく。なお、各パラメータに設定されている値はデフォルト設定とは限らないので悪しからず。

Model

画像生成に使用するモデルを選択します。汎用モデルはすべてに適していますが、アニメスタイルの生成には特定のモデル (waifu-diffusion) が適しています。

Control

加法モデルは、画像生成プロセスをガイドする追加の制御を提供します。
多くの場合、スクリブル、ポーズ、デプスマップ、またはエッグマップの形式で入力を受け取ります。これらの加法モデルは、指定されたバージョンの Stable Diffusion とのみ互換性があります。
「重み」は、コントロールが画像生成プロセスにどの程度影響するかを決定します。「プロンプトなし」は、プロンプトなしで画像を生成できます。「開始」と「終了」は、ノイズ除去プロセス中に、追加のコントロールが作動するときに決定します。

Strength

画像から生成する場合、値が高いほど、元の画像からの芸術的自由度が高くなります。100% は、既存の画像 (別名、テキストから画像) からの影響がないことを意味します。

Seed

シード値は、画像生成の開始方法を決定します。同じシードは同じ画像を生成します。

Seed Mode

シードモードは、シードの使用方法を決定します。「レガシー」は、古い Draw Things アプリと互換性があります。「タッチ CPU 互換」は、macOS の AUTOMATIC1111 や Invoke.AI などの他のデッキトップツールと互換性があり、「スケールアライク」は、シードがいくつかを維持できるようにします。異なる画像サイズでも似ています。

Image Size
生成された画像のサイズ.512x512 が最良の結果になります

UpScale
アップスケーラーは、比較的小さい (512x512) 画像から視覚的に快適な高解像度 (2048x2048) 画像を生成するのに役立ちます。

Steps
画像生成に適用するステップ数。ステップ数が多いほど、より良い画像が得られますが、時間がかかります。

Text Guidance

テキスト入力をどのように「文字通り」処理する必要があるか。値が高いほどテキストに忠実であり、値が低いほど芸術的自由度が高くなります。

Sampler
異なるサンプラーは異なるステップで収束する可能性があり、異なる視覚スタイルをもたらす可能性があります.Euler A はより「夢のような」画像を生成することが知られていますが、DPM++ 2M Karras はわずか 30 ステップで高品質の画像を生成できます.

Clip Skip

"Clip Skip" は、テキストエンコーダーの最後からスキップされるレイヤーの数を制御します。テキストエンコーダーは、テキストをコンピューターが理解できるベクトルに変換します。テキストエンコーダーでより多くのレイヤーをスキップすると、コンピューターは、結合された意味よりも個々の単語に集中するようになります。これは、タグのようなテキスト入力を微調整したモデルに役立つ場合があります。

2nd Pass Strength

高解像度修正は、最初のパスの画像生成に選択したサイズを使用し、次に選択した強度で画像を画像生成に適用して、ターゲットサイズに到達するように調整します。直接生成する場合はオブジェクトの重複を回避し、一般的なアップスケーラーを使用するよりも多くの詳細を生成する傾向があります。

Textual Inversion
一部のカスタムモデル (Anything v3 など) は、さらに良い結果を得るために変分オートエンコーダー (VAE) を微調整します。異なるモデル間で VAE を統合することは、コントラスト、明るさ、その他の低レベルの画像視覚的側面に影響を与えるため、危険な作業になる可能性があります。モデルを混合するのではなく、いずれかのモデルから VAE を使用することを選択できます

Modelダイアログ

見るとデフォルトでもかなりのモデルを選ぶことができる
（下図には一部自分で読み込んだモデルもあります）

以下は、Modelプルダウン内の　Manage…　を選ぶと表示されるダイアログからインポートボタンを押した際に表示される部分。

ダウンロードファイル

Safari からファイルをダウンロードしてファイルアプリの Draw Things フォルダーの下の「ダウンロード」に移動するか、URL を直接入力してインターネットからカスタムモデルをダウンロードすることができます。

モデル名

名前はモデルリストに表示されます。

トリガーワード

Dreamboot モデルは、多くの場合、レアワード/トークンでトリガーする必要があります。ここにトリガーワードを入力すると、モデルを選択するときに、プロンプトの前にこのトリガーが自動的に追加されます。

画像サイズの微調整

モデルが微調整に使用した画像のサイズ。ほとんどの v1 モデルは 512x512 に調整されており、多くの v2 モデルは 768x768 に調整されています。

カスタムテキストエンコーダー

Dreambooth モデル (プレフィックス文字列を必要とするモデルなど) は、テキストエンコーダーも微調整します。使用しているモデルがテキストエンコーダーを微調整していないと思われる場合は、このモデルの選択を解除します (例としては、Anything v3、Waifu Diffusion、Hassanblend など)。

カスタム変分オートエンコーダー

一部のカスタムモデル (Anything v3 など) では、変分オートエンコーダー (VAE) を微調整して、さらに優れた結果を得ることができます。その他 (ほとんどの Dreambooth モデルなど) は、デフォルトの自動エンコーダーを使用します。これらのカスタムモデルは、多くの場合、VAE チェックポイントを個別に公開します。したがって、VAE 用に別のファイルを

V予測

Stable Diffusion v2 では、v 予測を行う蒸留モデルが導入されました。これは、画像生成を高速化できる手法です (多くの場合、20 ステップで十分です)。カスタムモデルが v 予測を使用する場合、正しくレンダリングするためにこれを有効にする必要があります。

より高い精度での注意

一部のカスタムトレーニング済みモデル (Stable Diffusion v2.1 768-v や Versatile Diffusion など) は、アテンションレイヤーでより高い精度で実行する必要があり、そうしないとレンダリングに失敗する可能性があります。この要件を持たないモデルでこれを有効にすると、速度が 30% ～ 40% 低下します。

モデルバージョン　v1 または v2

Stable Diffusion v1 と v2 には互換性がありません。インポートしたカスタムモデルが v1 に基づいているか、v2 に基づいているかは、自動的に推測されます。

ModelMixingダイアログ

出力モデル名
名前はモデルリストに表示されます。

トリガーワード
Dreamboot モデルは、多くの場合、レアワード/トークンでトリガーする必要があります。ここにトリガーワードを入力すると、モデルを選択するときに、プロンプトの前にこのトリガーが自動的に追加されます。モデル1 0.50 モデル2 0.50 フリーフォーム差分を追加します。

モデルの精度
モデルを保存する精度を選択します。「Float 16」は約 2GiB のディスク領域を占有するのに対し、「Float 32」は 4GIB になります。他のモデルとさらに混合する予定がある場合は、より高い精度が役立ちます。画像生成時には何の違いもありません

VAE-Encoder
VAE-Decoder

一部のカスタムモデル (Anything v3 など) は、さらに良い結果を得るために変分オートエンコーダー (VAE) を微調整します。異なるモデル間で VAE を統合することは、コントラスト、明るさ、その他の低レベルの画像視覚的側面に影響を与えるため、危険な作業になる可能性があります。モデルを混合するのではなく、いずれかのモデルから VAE を使用することを選択できます。

街歩きがさらに楽しくなるものがあるといいな