いまさらControlNetを軽く読んでみる
Stable Diffusionなどのモデルに空間的な制約を付けられるという技術らしい。
例えば、人間の姿勢をキーポイントで取得すると、そのキーポイントに従った格好の人の画像を生成できるようだ。
fine tuningの手法などいくつかやり方がいくつか考えられるが、Stable Diffusionの重みはフリーズする。さらに、エンコーディングレイヤートレーニング可能なコピーを作成する。
このコピーはオリジナルのフリーズされた重みとはゼロコンボリューションでつながっている。