見出し画像

「Concept sliders」の使い方?メモ

この前、Emi2のNoteを拝見した際に、「Ceoncept slider fix_handsというのを使用して」という記載があり、少し調べてみました。
上のGithubサイトのものを言っているようです。
論文(preprint)も出ているようです。

https://arxiv.org/pdf/2311.12092.pdf

<GPTさんの要約>
タイトル:
Concept Sliders: LoRA Adaptors for Precise Control in Diffusion Models
発行年: 2023
どんなもの?この研究では、画像生成において特定の属性を精密に制御できる「コンセプトスライダー」という新しい手法を提案しています。これは、低ランク適応を使用して、生成モデルのパラメータを微調整し、所望の変更を実現します。
先行研究と比べてどこがすごい?この手法は、従来のテキストプロンプトや画像ベースの編集手法に比べて、よりターゲットを絞った編集が可能であり、他の属性への干渉を最小限に抑えます。また、複数のスライダーを組み合わせることで、さらに複雑な属性の制御が可能となる点も特筆すべきです。
技術や手法のキモはどこ?コンセプトスライダーは、特定の視覚的概念(例えば「老化」や「天気」)に対してモデルの反応を調整するための、低ランクのパラメータ方向を特定します。これにより、ユーザーは生成される画像の特定の属性をリアルタイムで調整することができます。
どうやって有効だと検証した?著者はStable Diffusion XLを使用して、様々な視覚的概念に対するスライダーの有効性を評価しました。実験には、画像のリアリズムを向上させたり、手の歪みを修正するなど、特定の課題に対するスライダーの効果を定量的に測定するユーザースタディが含まれています。議論はある?この手法は画像生成の精度と制御の向上を目指していますが、完全な解決には至っておらず、特定の編集が他の属性に予期せぬ影響を与える可能性が残っています。さらなる研究が必要であるとされています。

Huggingfaceのデモは下のリンクからアクセスが出来ます。

プロンプトを入力し、スライダーを選び、ウェイトを指定し、「Generate」を押すと右側にその効果が出たものが表示されます。

Githubサイトだと、Lora学習などについての記載がありますが、そのあたりは触ったことがないのでよくわかりませんでした。

「Ceoncept slider fix_handsを使用したい!!!」という場合は以下の様にすれば可能です。
Githubサイト内に学習されたスライダーLoraの一覧があります。

ptファイルがいくつかあり、ダウンロードしてLoraフォルダーに入れると使用が出来ます。

上のはAgeスライダーのXYZプロットですが、2.5ぐらいから高齢化していきますので、webuiでの使用も出来ると思います(SDXLモデル使用)。


Concept sliderを調べている際にあった関連情報サイト的なもの

https://www.pixcores.com/2024/04/best-slider-lora-for-sdxl

この動画でconcept slider loraについて簡単に紹介しており、その中で、Slider loraの例を挙げています。これらのリンクはGithubサイトにないものもありますので、参考になるかと思います。

このsd-webui-loractlについては、webuiの拡張機能です。
Loraのウェイトをステップ数で変化させるというもののようです。
forgeで効果出ているかわからない上に使用方法がイマイチわかっていませんが、Loraと別に記載をする感じのような印象なのでしょうか?
下のは、上と同じプロンプトで、最後に<loractl:network:0.5:hr=1.0>を追加したものです。


この記事が気に入ったらサポートをしてみませんか?