見出し画像

Neutral prompt:掘り下げ①:AND_PERP編

作成者のサイトを見てみると、それぞれのキーワードについて文献のリンクがありました。
この拡張機能は4つの文献の機能を搭載しているようです。
前回までの記事は表面的なところでしたので、その文献の内容も踏まえて機能について考察、検証してみたいと思います。
まずは、AND_PERPについてです。

<使ってみた印象>
元絵から構図が変化するので、それを前提に使用する必要があります。

以下の文献をもとにしているようです。

<GPTさんの論文の要約的なもの>

この論文では、テキストから画像を生成する際に、従来のネガティブプロンプトアルゴリズムが直面している問題を解決するために、「Perp-Neg」という新しいアルゴリズムを提案しています。Perp-Negは、生成された画像から不要な概念を削除することを可能にすることで、ユーザーが画像をより柔軟に編集できるようにします。また、2Dの場合において、モデルが訓練データの偏りに基づいて画像を生成することなく、入力されたプロンプトを正確に表現できるように改善します。このアルゴリズムは訓練や微調整を必要とせず、既存の拡散モデルに容易に適用できるとのことです。さらに、Perp-Negを3D生成に適用し、「DreamFusion」という最先端のテキストから3Dへの手法と統合することで、3Dオブジェクト生成における「Janus(多面体)問題」を効果的に解決しています。

実験内容
この研究では、まず2Dケースにおける実験を行い、Perp-Negをサンプリングに使用することの重要性を定量的に実証しました。これは、テキストクエリに対応する画像を取得する可能性を改善し、なぜ我々の方法が3Dケースのバニラサンプリングを超えるのかの証拠を提供します。次に、3D生成の結果を示しています。

2D生成の統計
Perp-Negが3D生成品質を改善する理由を理解するために、最初にリクエストされたビューの2D生成を探り、Perp-Negがバニラサンプリング方法よりも少ないアーティファクトを持つ画像を生成するかどうかを確認しました。最初の実験では、ランダムシードを0-49に固定して、各テキストプロンプトから50枚の画像を取得しました。一連の基準に基づいて要求されたテキストと一致する資格のある画像を慎重に選択し、Stable Diffusion Compositional Energy-based Model(CEBM)と我々のPerp-Negで生成された受け入れられたサンプルの割合を報告しました。

Perp-Neg DreamFusion
Perp-NegをDreamFusionと統合し、DreamFusionの公開されたレプリケーションを使用しました。これは、Imagenではなく事前訓練された2D拡散モデルとしてStable Diffusionを使用します。SDS損失を方程式11で提供されるものに置き換えました。負のプロンプト重み関数を決定するために、一般的な形式のシフトされた指数減衰を使用しました。

論文の結論
我々は、Perp-Negという新しいアルゴリズムを導入しました。このアルゴリズムは、正のプロンプトと重なる負のプロンプトを許容しながら、主要な概念を損なうことなく、画像生成における柔軟性を高め、ユーザーが初期生成写真から望ましくない概念を編集できるようにします。さらに重要なことに、Perp-Negはプロンプトの忠実性を高め、2D拡散モデルがその訓練データから偏ったサンプルを生成するのを防ぎ、入力プロンプトを正確に表現することができます。これは、モデルバイアスを説明する文を負のプロンプトとしてPerp-Negに供給することによって、望ましい解を生成することができます。また、Perp-Negが2D拡散モデルを正確に条件付けして興味のあるビューを生成する方法、そしてSDSベースのテキストから3DモデルへのPerp-Negの堅牢なビュー条件付け特性を統合し、Janus問題を軽減する方法を示しています。

AND_PERPについてわかりましたでしょうか?
普通にANDでつなげるよりも良い結果になるみたいな感じがします。

以下、同じシード値(SD1.5とSDXLは別ですが)で、neutral promptを付け加えたものを提示します。

gentle_smiling_anime_girl:1.5, glowing_digital_paintbrush:1.5, spectrum_of_colors, vibrant_light_strokes, cozy_well_lit_room, artistic_parcaphernalia, large_window_soft_evening_light, warm_inviting_ambiance, painting_the_air_around_her, dusk_ambiance, BREAK, creativity_reflected_in_artwork

SD1.5

より追加したいところに追加で適応する形にしてみます。
AND_PERP spectrum_of_colors:1

AND_PERP artistic_parcaphernalia :1

下が、1以下のxyzプロットですが、ウェイトが低いと元の絵に近いものになります。


SDXL
A young anime-style artist with a serene smile, holding a luminous digital paintbrush, which emits a spectrum of radiant colors. She is in the midst of painting, with vibrant strokes of light that appear to come alive in the air around her. The setting is a cozy, well-lit room at dusk, filled with various artistic paraphernalia and artwork that reflects her creative personality. The room has a large window that lets in the soft glow of the evening light, adding a warm and inviting ambiance to the scene

AND_PERP vibrant strokes of light that appear to come alive in the air around her. :1

AND_PERP various artistic paraphernalia and artwork that reflects her creative personality. :1

ウェイトが1をこえてくると、元のプロンプトよりも、この部分がより強調されていくみたいです。

ウェイト2

下が、1以下のxyzプロットですが、ウェイトが低いと元の絵に近いものになります。

ということで、AND_PERPについてでした。
xyzプロットを見る限りでは、デフォルトの1が強力すぎる印象がありました。



この記事が気に入ったらサポートをしてみませんか?