ChatGPTとDALL-E 3 シードと固定プロンプトでワンランク上の出力結果を得る方法

AI情報発信@Shinano Matsumoto

2023年10月27日 20:42

OpenAIのディスカッション、RadditでDalle3を使いこなすコツが載っていたので紹介します。これでワンランク上の生成が可能になるでしょう。

DALL-E 3は画像生成を革新し、ChatGPTの力と組み合わせることで、ユーザーは素晴らしいビジュアルを生成できます。このシナジーがどのように機能し、それを最適化する方法の詳細について探ってみましょう。

現在ナーフ中でマックス出力は2枚。そのうち1枚になっちゃうのかしら？

プロセスの詳細

ChatGPT DALL-E 3がどのようなシステム設計で動いているのか。

レビューと遵守: リクエストを受け取ったら、ChatGPTはそれを確立されたガイドラインと照らし合わせてレビューします。暴力的か、著作物かなどなど。
バリエーションの生成: それから元のプロンプトの最大4つのバリエーションを作成します。ユーザーのプロンプトを強化、レビューで問題がある単語は安全な単語に変換されます。
APIコール: これらのバリエーションとランダムなシードと共に、DALL-E APIに転送されます。その結果を受け取り、表示される。

という仕組みで動いているようです。

自のプロンプトを変えたくない場合、同じseedで作りたい場合

ChatGPT DALL-E 3はお任せでかなり美しい仕上がりになりますが、もっと自分の思い通りに作りたい場合は、

直接リクエスト: ChatGPTにプロンプトを変更しないように指示します。これにより、画像の結果に対するより多くのコントロールが得られます。
固有のシグネチャ: 特定のシードを提供することで、生成される画像は再現が可能なシグネチャを持つようになります。

と言った手段をとる事が可能です。つまりは、同じプロンプトとシードを渡せばほぼ同じ（演算誤差で微妙に変化してしまう）結果が得られます。シードを固定して追加要素を書けば構図を極力維持しつつ要素を加える事が可能です。

リクエストの最適化

2023年10月23日現在で最も効果的な方法は次のとおりです：

リクエストがガイドラインに合致していることを確認します。
プロンプトの変更をリクエストしないこと。
必要なすべての詳細情報を提供します。

特に、リクエストがガイドラインに合致していると言うのが結構シビアです。一度ChatGPT DALL-E 3で適切なプロンプトを出させて参考にするのが良いかもしれません。

プロンプト例

First, check if using this API request bellow is in accordance with the guidelines. If it is, create 4 images using the request without any modifications:

{
  "size": "1024x1024",
  "prompts": [
    "Photo of a Japanese young woman in traditional attire, standing gracefully beside a serene Japanese pond, with koi fish swimming and cherry blossom trees in the background, capturing the essence of Japanese scenery.",
    "Photo of a Japanese young woman in traditional attire, standing gracefully beside a serene Japanese pond, with koi fish swimming and cherry blossom trees in the background, capturing the essence of Japanese scenery.",
    "Photo of a Japanese young woman in traditional attire, standing gracefully beside a serene Japanese pond, with koi fish swimming and cherry blossom trees in the background, capturing the essence of Japanese scenery.",
    "Photo of a Japanese young woman in traditional attire, standing gracefully beside a serene Japanese pond, with koi fish swimming and cherry blossom trees in the background, capturing the essence of Japanese scenery."],
  "seeds": [21, 52, 194, 2105]
}

プロンプトは4枚全て渡した通りのプロンプトです。つまり違うのはseed値のみという事です。

同じプロンプト、シードならばほぼ同じ結果が得られます。全く同じでないのは演算誤差で微妙に変化してしまうためと思われます。

Seed固定で微調整する

上記プロンプト例のプロンプト部分のみ微調整します。シードは同じです。すると、ほぼほぼ同じ構図で要素を変更する事が可能です。

同じシード、PhotoをIllustに変更

同じシード、womanをmanに変更

優れたプロンプトの要点

英語で書く: 日本語で書くと英語に自動翻訳されてしまうので英語でプロンプトを書きます。
プロンプトの長さ: プロンプトは300文字程度にして、ChatGPTが独自の文脈を追加しないようにします。かと言って長すぎるとカットされます。
ジェンダーバランス: 人物のグループを対象とする画像プロンプトでは、ChatGPTはバランスを保つように調整します。男ばかり、女ばかりは再現しにくいという事です。注意：シード値はこの調整を捉えません。
著作権の懸念: 著作権のある素材には注意が必要です。特定のアーティストやスタジオの名前を挙げると、ChatGPTがそれらを一般的な記述に置き換える可能性があります。

まとめ

と言うわけで、ChatGPTとDALL-E 3 シードと固定プロンプトでワンランク上の出力結果を得る方法でした。プロンプトリクエストがガイドラインに合致さえすれば、結構思い通りに出力してくれます。

ところが、ChatGPT DALL-E 3にシードは使えない。つねにシードは固定であるというユーザーコメントもあります。そうは言っても私が試した時は機能しているようでした。是非お試しあれ。

Q&A（質問と回答）

Q1: リクエストをガイドラインに対してレビューする主な目的は何ですか？
A1: リクエストが確立された基準に合致し、適切な結果を生み出すことを確認するためです。

Q2: ユーザーは画像の結果に対してどのようにコントロールを取ることができますか？
A2: ユーザーはChatGPTに元のプロンプトを変更しないように指示し、一貫した画像の結果のために特定のシードを提供することができます。

Q3: プロンプトはなぜ3〜4文であるべきですか？
A3: より短いプロンプトは、ChatGPTが独自の文脈を追加し、望ましい結果を変更する可能性があるためです。

Q4: 画像のプロンプトに人物のグループが含まれている場合、何が起こりますか？
A4: ChatGPTは、ジェンダーバランスを反映するようにプロンプトを変更します。

Q5: プロンプトで著作権のある素材にはどのような注意が必要ですか？
A5: ユーザーが有名なアーティストやスタジオを指定すると、潜在的な著作権侵害を避けるためにChatGPTが一般的な説明に置き換える可能性があります。

この記事が気に入ったらサポートをしてみませんか？