【DALL-E】画像生成の基本的なプロンプトを学び直し①：一発で結果を得るのはNG

Yang

2024年5月9日 00:18

最近、chatGPTのDALL-Eを使用して自分でサムネイル作成を行うことが多くなりました。
例えば、この記事のサムネイルは自分で生成して作りました。
また、以下の記事のAIが作ってます。

文章系のプロンプト作成はまずまず得意になってきたので、画像生成にも手を出してみよう！と意気込んでいたのですが、なかなか難しい…

自分への戒めも込めて、画像生成プロンプトの基本的な書き方についてまとめていきたいと思います。

参考にさせていただいているサイトはいつもの如く、以下です。

前置き：画像生成におけるプロンプトエンジニアリングの現状

プロンプトエンジニアリングについて、画像生成用とそうでないものに分類すると、圧倒的に画像生成のプロンプトエンジニアリングのほうが高難易度になります。

理由は簡単で、画像生成のプロンプトは他のプロンプトに比べて主観的で、評価が一定ではないからです。

そのため、今回より解説していく画像生成のプロンプトエンジニアリングはあくまで一例で、これからもどんどん発展していくものとして捉えていただけると幸いです。

一発で求めている画像は基本出力されない

さて、本題です。
画像生成を行ううえで最も重要なのは、
「一発で求めている画像は出てこないことを理解する」ことです。

画像生成は通常のプロンプトによる出力に比べて、かなり出力の差が激しいです。

そのため、プロンプトのテンプレートを用意したとしても、毎回全然違ったテイストの画像が生成されることは日常茶飯事です（ブレを少なくする方法もありますが、今回は置いておきます。）

そのため、画像生成において重要なことは「試行錯誤すること」となります。

ねばって画像生成してみる

試行錯誤を行う例として、以下のフリー写真を再現してみます。

まずはざっくりと、以下のように指示してみました。

女子高生が教科書を読みながら悩んでいます。
机に座っていて、手には鉛筆を持っています。
髪型はツインテールで、髪色は栗色です。
上記のような画像を生成してください。

かわいい子は出力されましたが、ちょっと違いますね…。
ここから、直してほしい部分をプロンプトに足していきましょう。

女子高生が教科書を立てて読みながら悩んでいます。
机に座っていて、手に持った鉛筆で自分の頭をつついています。
髪型はツインテールで、髪色は栗色です。
服装はブレザーの制服です。
画像の右側に女子高生がいます。
上記のような画像を生成してください。

少し近くなりましたね。ただ、鉛筆と指が同化しかけているので、少し怖いです。もう少し頑張ってみます

女子高生が教科書を読みながら、下唇をかんで悩んでいます。
教科書は立てた状態で読んでいます。
女子高生は机に座っていて、手に鉛筆を持っており、自分の頭をつついています。
髪型はツインテールで、髪色は栗色です。
服装はブレザーの制服で、中にセーターを着ています。
画像の右側に女子高生がいます。
背景には本棚があります。本棚は腰の高さくらいです。
上記のような画像を生成してください。

服装に関してはほぼ正解ですね。ただ、若干指示を守れてない部分も見受けられます。

上記のように、一発で求めた画像を生成することは基準があったとしても、かなり難しいです。

これから画像生成に挑戦される方、または挑戦している方は、
ぜひとも一度の生成にこだわらず何度も試行錯誤してみてください。

この記事が参加している募集

#AIとやってみた

31,744件

この記事が気に入ったらサポートをしてみませんか？