Midjourneyの上級テクニックで写真集のプロトタイプを作成する・第2回
Midjourneyを活用して写真集のプロトタイプを作成する検証レポートの第2回目です。ライブ配信しながら更新していく実況コンテンツです。
検証レポートの概要
写真集のプロトタイプを作成するプロセスを詳細にレポートします
本コンテンツは検証レポートです。Midjourneyを習得するための学習コンテンツではありません
Midjourneyの基本的な使い方を知っている方を対象に書いています(もしくは過去のVlogを視聴していてMidjourneyの知識を獲得されている方)
検証目的を兼ねているため、Midjourneyのテクニックを駆使します。基本的な操作や知識については解説しません(基本的なことは理解している前提で解説します)
Midjourney 5.2 で作業を進めます
必要に応じて、ChatGPTを使います
画像生成AI Prompting 方針(10月に更新):
プロンプトに作家名や作品タイトルを入れない(映画監督の名前や映画タイトル、登場人物、俳優の名前等も同様)
プロンプトに著名人の名前やブランド名などを入れない
他人の著作物を Describeしない
Nijiモデルの生成画像は自分の作品として公開しない
生成した画像は作品の素材として利用する
公開する場合はAIで生成したことを表記する
インスピレーション・プロセス
「Midjourneyの上級テクニックで写真集のプロトタイプを作成する」シリーズの第2回目です。第1回目は想像以上にエクストリームな内容になってしまったので、非公開にしました。今回は注意します。
前回、生成したラフイメージ。
まだコンセプトが決まっていないため、ランダム生成を繰り返して、イメージを広げたいものを中心にグルーピングしました。
今回は(一旦リセットして)もう一度インスピレーション・プロセスから始めます。漠然としたイメージをスケッチブックに描くように、ビジュアルのアイデアをカタチにしながら(画像生成しながら)漫然と進めていきます。
前回同様に、Y2Kファッションを核にしたいので、まず「dance fashion」というワードで探っていきます。
縦横比「--ar 16:9」とプロンプトの忠実度を高くするために「--style raw」をプロンプトの末尾に付けます。基本的に、このパラメーターをデフォルトにして進めていきます。
曖昧なプロンプトは、ランダムな生成になりますので、アイデアを出すプロセスでは有効です。新たなヒントが得られるからです。
映画のシーンのような画風にしてみます。「film still」を冒頭に追加。
Midjourneyらしいbiasです。
ファッションカテゴリーの「hip-hop」を追加してみます。
イメージどおりの画像が生成されたので、このプロセスでは「可もなく不可もなし」という感じです。
ここでスタイルの核となる「Y2K aesthetics」を追加します。
同時に、具体的な要素としてバギーパンツ「baggy pants」と柄スタイル「paisley pattern」も追加してみます。
バギーパンツと柄の影響力が強そうですね(AIは、バギーパンツを見せるために全身、もしくは下半身を生成しています)。
背景を無地にするために「Pure white background」を追加します。
バギーパンツと柄の影響力が強い!
これだけ強いと、クローズアップを指定しても効かないのでは…
プロンプトを解析して確認しておきます。
「Shorten Command」を使用します。詳細は以下のVlogで解説しています。
Midjourneyにとって重要なトークンは、やはり柄スタイル「paisley pattern」バギーパンツ「baggy pants」ですね。生成された画像を見れば一目瞭然。
試しに、重要なトークンだけで構成したプロンプトを使ってみます。
元のプロンプトと同じ生成画像になります。
※解析が目的なので、このプロンプトは使用しません。
モデルの基本ベース
モデルの基本ベースを決めたいので、キャラクター要素を追加します。
「18 years old Japanese young woman Mariko」には、年齢と人種、性別、名前(ここではMariko biasを採用)が含まれています。
※Midjourneyは特定の名前にバイアスがあり、その特性を利用してキャラクターの統一感を保持しています。
全身像を確認するため、縦横比を「--ar 1:2」に変更。
やはり、クローズアップが効かないので「Mariko has beautiful eyes」を冒頭に追加して、擬似的なクローズアップで生成します(目の表現が強いとクローズアップになります)。
カスタマイズしやすいように、柄スタイルとバギーパンツをまとめて「paisley pattern baggy pants」とします。
縦横比を「-ar 3:4」に変更して、生成されるイメージの内容を検証します。
Mariko biasが効いているので、似たようなモデルになっていますが、ランダムな生成になっているので、現在のプロンプトを解析しておく必要がありそうです。
「Shorten Command」の結果です。
目の表現が強すぎるようですね(「eyes」が1.00あります)。クローズアップになるくらい…強いということが分かります。
試しに、末尾の「--style raw」を削除して、Aesthetics Systemを効かせてみましょう(これがMidjourneyのデフォルトです)。
プロンプトから離れますが、よりクリエイティブに表現されます。
Midjourneyはデフォルト(Aesthetics System)で生成すれば、誰がやっても、単語一つでも、美しくクリエイティブな画像が生成されます。
今回は忠実度を上げたいので「--style raw」を付けていますが、プロンプトエンジニアリングの難易度も上がるので試行錯誤の覚悟が必要です。
ここまでの仮説検証の結果(プロンプト)を記録しておきましょう。クローズアップの指定がまったく効かないくらい「paisley pattern baggy pants」が強いということが分かりました。
目の表現を追加すれば、なんとか相殺できることも確認できました(AIは、瞳を見せようとするので結果的にクローズアップになり、バギーパンツ+柄に勝ちます)。
顔の表情を確認したいので、プロンプトから「paisley pattern baggy pants」を削除。
ちなみに、プロンプトから「baggy pants」(バギーパンツ)だけを削除すると、全身像にはなりませんが、イメージ全体に柄スタイル「paisley pattern」が反映されます。
縦横比を「--ar 1:2」に変更。
Midjourneyは、縦横比が生成結果に影響を与えますので、試行錯誤するときに有効です。
縦横比を「--ar 21:9」に変更。瞳がより強調されています。
余談:
同じプロンプトでも「--style raw」を削除して「--s 1000 --niji 5」を追加すると、日本のアニメ/マンガスタイルのイメージに変わります。
※Nijiモデルについては、生成した画像を自分の作品として公開することをお奨めしていません。
Midjourneyの縦横比と生成画像サイズ
縦横比は生成画像の結果に影響を与えますので、意図したイメージに近づけたい場合、比率を変更しながら探るとよいでしょう。
--ar 1:1 [1024 x 1024]
--ar 16:9 [1456 x 816]
--ar 3:4 [928 x 1232]
--ar 1:2 [768 x 1536]
--ar 21:9 [1680 x 720]
--ar 21:9 を下方向に拡張 [1680 x 1080]
--ar 21:9 を下方向と上方向に拡張 [1680 x 1440]
Midjourneyの最新のアップスケーラーは最大4倍となり、「--ar 16:9 [1456 x 816]」で実行すると、5824 x 3264 pxの画像になります。
高速モードでのみ使用可能で、処理に少し時間がかかります。
Midjourneyの中でここまで超解像できるのは凄いですね。
※GPU消費も4倍になりますが…
資料(生成画像サイズの比較一覧)のダウンロード:
20231030-Midjourney_GenAI_size.pdf(PDF/57.9MB)
モデルのキャラクター設定
モデルの喜怒哀楽の検証です。Vlogでは何度もやっていますので、情報整理を目的とします。
名前biasについては、以下のVlogで解説しています。
日本人のMariko biasはまだ確認中なので、すでに検証済みのMatilda biasで試していきます。
まず、最も表現しやすい「笑顔」ですが「Matilda is smiling」が効いています。「笑顔」は試行錯誤せずに生成できます。
「Matilda is smiling」を「Matilda is laughing out loud」に変更して、激しい笑い(大笑い)を表現しています。
悲しみの表現は「Matilda is crying」のように表現できますが、プロンプトに(前述の検証のような)強いフレーズが含まれていると、まったく効かなくなります。
プロンプトを分析して、強いフレーズを削除するか、同等の強さのフレーズで相殺するか、試行錯誤することになります。
「大声で泣く」という表現。
これは難易度が高くなります。以下のプロンプトには「Matilda is wailing loudly」と記述していますが、意図したイメージが生成される確率は低いので何度もガチャを回すことになります。
「Shorten Command」でプロンプトを解析してみます。
ヘアースタイルの「Braid」が最強で、あとはMatilda(マチルダ)とファッションの表現ですね。「wailing」はかなり低いので「wailing loudly」が成立していません。
つまり、このプロンプトでは「大声で泣く」という表現は不可能ということになります。
参考:ヘアースタイルの表現は以下のVlogで解説しています
ChatGPTで探ってみます。
「画像生成AIのプロンプトエンジニアリングの達人」という役割を与えて、条件を定義しました。以下がプロンプトです。
ChatGPTが生成したプロンプトです。
日本語:
長い文章のプロンプトはカスタマイズしにくいので、このままでは使えません。「Shorten Command」で不要なワードを削除して、コンパクトにしたプロンプトにします。
「Shorten Command」で生成された5つのプロンプトの候補から1番目を選択。以下がコンパクトになったプロンプトです。
意図したイメージに近づきました。
画像生成のプロンプトは「文章より、単語の羅列」の方が編集しやすいので、最初から「単語の集合体」にして検証した方がよいのですが、煮詰まってきたら、ChatGPTとMidjourneyの「Shorten Command」でほぼ解決する感じです。
Mariko bias(マリコ)はまだ検証できていませんが、Matilda bias(マチルダ)をテンプレートにして試してみます。
笑顔の表現「Mariko is smiling」は効いています。
「泣く」表現の「Mariko is crying」はあまり効いていませんが、「crying」はそこそこの強さがあるので(下図のShorten Commandによるプロンプト解析を参照)、悲しい表情にはなっています。
ワードやフレーズの影響力を強くするテクニック
手っ取り早いテクニックとして「同じ単語の繰り返し」があります。
以下のプロンプトの冒頭には「crying, crying, 」という記述があります。「Mariko is crying」も残っているので、cryingを3回記述していることになります。「泣き顔」に変わっているのが分かると思います。
※プロンプトから離れてしまうことがありますので万能ではありません。
「笑顔」表現でも同様で、以下のプロンプトに「smiling, smiling, 」を追加すると、より意図したイメージに近づきます。
ただ、繰り返しになりますが「プロンプトから離れてしまう」ため、Mariko bias(マリコ)の影響力も低下しています。
応急処置的なテクニックだと捉えておけばよいと思います。
名前biasを利用したキャラクターデザイン
以前検証した名前biasについての情報を掲載しておきます。
以下は、名前biasの基本型を使って、5人のキャラクター(Matilda, Sophia, Isabella, Emma, Mariko)をデザインしています。
名前biasについては、以下のVlogで解説していますので参考にしてください。
Matilda biasの基本型
Sophia biasの基本型
Isabella biasの基本型
Emma biasの基本型
Mariko biasの基本型
同一のキャラクターを生成したい場合、seed値を付加する方法や複数のリファレンス(参照画像)をプロンプトに付ける方法などがありますが、名前biasは検証用として有効です。
実際は、完全な同一画像は生成できませんが、上記の組み合わせやPhotoshopによる画像処理である程度、統一感を与えることは可能です。
第3回目に続く
更新日:2023年10月30日(月)/公開日:2023年10月29日(日)