いまさらControlNetを軽く読んでみる

Stable Diffusionなどのモデルに空間的な制約を付けられるという技術らしい。
例えば、人間の姿勢をキーポイントで取得すると、そのキーポイントに従った格好の人の画像を生成できるようだ。

fine tuningの手法などいくつかやり方がいくつか考えられるが、Stable Diffusionの重みはフリーズする。さらに、エンコーディングレイヤートレーニング可能なコピーを作成する。
このコピーはオリジナルのフリーズされた重みとはゼロコンボリューションでつながっている。

Stable Diffusionは、画像から画像特徴量に変換した後、拡散過程、逆拡散過程を経て学習を行う。ControlNetでは、逆拡散過程のU-Net部分に対して上記のようにモデルアーキテクチャを加える。

入力となる図のcの部分については、512 x 512から64 x 64の特徴量にする。64 x 64はStable Diffusionの特徴量マップのサイズと同じ。4層のCNN。

学習時には、50%のtext promptの入力を空にした。

Classifier-Free Guidanceという技術について説明がなされていたが、何か把握できていないので今後調査。

この記事が気に入ったらサポートをしてみませんか?