4060tiでのStable Diffusion ForgeとA1111生成時間差

モデルはpony系のSDLX
プロンプトはscene 9のみ
全て
DPM++2M Karras 20ステップ CFG7 クリップスキップ2
で行いました
本元ponyの推奨ステップ自体は25です
今回hyper-SDLX(8ステ12ステ)やLCMは使っていません

自身の環境
CPU    i7-13700f
メモリ 32GB(DDR4-3200)
GPU  4060ti16gb

SDLX 512×512
forge 2.3-4.2秒
A1111 3.1-3.6秒

SDXL 1024×1024
forge 10.6-13.5秒(6.5-7.7秒)
A1111 13.4-13.9秒
6.5-7.7秒はCFGスケール1の場合
A1111はCFGスケール1でも変化なし

SDXL 1024×1024 pony系LoRA1つ
forge 10.2-12.6秒(5.9-6.4秒)
A1111 13.9-18.6秒
5.9-6.4秒はCFGスケール1の場合
A1111はCFGスケール1でも変化なし

SDXLだと機能しないAnimateDiff
SDXL 1024×1024
forge   3分17秒 11.0-15.6GB
A1111 17分44秒 15.7GB(共有1.1-7.4GB)
A1111だと共有メモリに流れるため実用性皆無
forgeでも他の部分で使用していると16GBギリ

Stable DiffusionのAnimateDiffに関してはSDLXだとノイズが多くステップ数が必要なのか時間的な意味でもSD1.5が優勢
AnimateDiffに関してはComfyUIが一番良い選択肢である

また、通常の画像生成でCFGスケールを低くするとforgeのみ大幅に時間短縮が可能な点は興味深い
ComfyUIを考えるとこちらが本来の正常な動きと考えられなくもない
兎にも角にも4060tiであればforgeの方が早い

この記事が気に入ったらサポートをしてみませんか?