VQGAN+CLIP memo

2022年4月7日 02:25

ステップ4：実行

このステップでは、作成する画像のパラメータを決定し、画像を生成します。

VQGAN +CLIPとGANDiffusionの両方で使用される2つのパラメーターがあるため、それらは「グローバルパラメーター」セルに分けられます。これらのパラメータは次のように定義されています。

シード：シードは、VQGANが初期イメージとして使用するノイズのマップを決定します-シードの概念がMinecraftでどのように機能するかと同様です。シードの値を-1に設定すると、毎回ランダムな画像が生成されます。正の整数を使用すると、毎回同じノイズシートが生成され、異なる画像間でスタイルとトーンを比較できます。

display_frequency： VQGAN + CLIPは開始画像を取得し、最終的に安定した画像になるまで数十回または数百回繰り返します。表示頻度は、セルの下のテキストボックスに何かを印刷する前にマシンが実行する反復回数を決定します。たとえば、display_frequencyを1に設定すると、VQGANが実行セルで行うすべての反復が表示されます。display_frequencyを33に設定すると、1番目、33番目、66番目、99番目の画像のみが表示されます。

次のセル「VQGAN+CLIPパラメーターと実行」には、VQGAN+CLIP専用の残りのパラメーターがすべて含まれています。このセルを実行すると、[セルの実行]ボタンを押したときに設定されたパラメータを使用して画像が下に生成され始めます。パラメータは次のように定義されています。

プロンプト：これらは、CLIPがVQGANの提案に変換するテキストプロンプトです。たとえば、このボックスに「ゴッホ風の街並み」と入力すると、VQGANはゴッホの芸術的なスタイルを使用して街並みの画像を生成するように求められます。

width：生成された画像の幅（ピクセル単位）。

height：生成された画像の高さ（ピクセル単位）。

clip_model：マシンで使用されるCLIPのモデル。

vqgan_model：マシンで使用されるVQGANのモデル。

initial_image：ノイズシートの代わりにマシンが最初に使用する画像。Colabの内部ストレージを使用している場合は、インポートした画像ファイルの名前を入力し、ファイルの語幹を必ず含めてください（例：「olivepicture.png」）。これらの画像を画面左側のファイルフォルダにドラッグできます。フォルダは、左側のタスクバーに小さなアイコンでマークされています。

target_images：テキストプロンプトと同様に、ターゲット画像は、VQGANが画像を生成するときに「目指す」画像です。テキストプロンプトと組み合わせて使用することも、単独で使用することもできます。初期画像とターゲット画像の両方と同じ画像を設定すると、フィルターと同様に追加のテキストまたは画像プロンプトが機能します。

max_iterations：プロセスを終了する前にマシンが実行する反復回数。

さらに、VQGANの処理と機能を混乱させる4つの高度なパラメーターがあります。これらはかなり難解な傾向があり、非常に一貫性のない結果を生成する可能性があるため、自分の危険で混乱させて実験してください。

ステップ5：ヒントとコツ

いくつかの役立つヒント！

初めてGANを実行した後は、次の試行のためにすべてのセルをもう一度実行する必要はありません。Webブラウザの[ノートブック]タブを閉じない限り、別の画像を生成するために必要なのは、[パラメータ]セルを実行してから[実行を実行]セルを実行することだけです。さらにデータセットをダウンロードする場合を除いて、以前のセルを気にする必要はありません。
「ランタイム」に移動し、「割り込み実行」をクリックすると、手元の手順を停止できます。出力を途中で停止してビデオ生成に移りたい場合、または現在のプロンプトが終了するのを待たずに新しいプロンプトを実行したい場合に便利です。
テキストプロンプトセクションでは、「|」で区切って複数のプロンプトを入力できます。シンボル。
コロンを追加してから、それぞれに数字を追加し、合計で100にすることで、さまざまなプロンプトにパーセンテージの重みを割り当てることができます。たとえば、「都市の景観：50 | 悪夢の芸術家：25 | フォトリアリズム：25インチ
テキストプロンプトセクションで、「非現実的なエンジン」、「超現実的」、「フォトリアリスティック」、「レンダリング」などのフェーズを追加すると、HDのような結果が得られます。これはかなり面白いです。
「initial_image」または「target_images」セクションで使用する独自の画像を追加する場合は、画面の左側に移動して、小さなファイルアイコンをクリックします。画像をフォルダにドラッグアンドドロップしてから、フォルダの名前（image.jpg、face.pngなど）を関連するセクションに入力します。

ステップ6：アスペクト比とサイズ変更

これは私だけかもしれませんが、700x700ピクセルを超えるサイズの画像を生成するのに苦労しています。Collabのメモリが不足しています。通常、他のアスペクト比を試すときは常に、その合計ピクセル数（700x700 = 490000）を使用します。ここにいくつかの便利なものがあります：

1:1 - 700x700

4:3 - 808x606

16:9 - 928x522

2:1 - 988x494

1.66:1 - 904x544

2:3 - 568x852

4:5 - 624x780

10:13 - 600x780

7:10 - 588x840

3:5 - 540x900

5:6 - 630x756

11:19 - 528x912

Cinemascope (2.4:1) - 1084:452

Manga (250:353) - 576x812

Super 8 (1:1.33) - 600x798

この記事が気に入ったらサポートをしてみませんか？