【イメージの差を埋める】生成AIへの頼み方のコツ

2023年8月9日 17:17

この記事はSchooで出演した「画像生成AIとイメージの差を埋める、頼み方のコツ」をまとめた記事である。授業で使っていた画像生成プロンプトを作成するためのChatGPTのプロンプトも掲載している。

生成AIを利用する際に出力結果とのズレに悩んでいる方を対象にしている。

[授業]画像生成AIとイメージの差を埋める、頼み方のコツ

概要

本授業は、画像生成AIと自己イメージのズレを解消し、効果的な頼み方のコツを学ぶことを目指します。

【本授業で学べること】
① midjourneyなどの画像生成AIの基本的な使い方
② 生成AIと自己の認識の差を知る
③ 生成AIと自己の認識の差を埋めるためのプロンプトの依頼の仕方やコツ
【受講対象者】
ノンデザイナーで、生成AIを利用する際に出力結果とのズレに悩んでいる方

まずは仕組みを知る

私もエンジニアでもないので、技術的なことは詳しく理解できているわけではない。しかし、どのように画像が生み出されているか知ることで、ズレを無くすことにもつながる。

とりあえず人に頼むときも、その人のことを理解してから始めないと危険だもの。

今回の授業の中心で扱う、画像生成AIについて話そう。

いくつか画像生成の仕組みはあるのだが、今回は潜在拡散モデルを紹介する。

難しい….と思う。部屋の掃除にたとえてみよう。

部屋がすごく汚くなった状態を想像しよう。これが純粋なノイズだとすると、そこから部屋をきれいにするために一つずつ物を片付けていくことになる。これがノイズを取り除く逆拡散過程。最後に部屋がすっきりと片付いた状態が、最終的に得る画像になる。

逆に、部屋がきれいな状態から物をあちこちに散らかしていくと、部屋はだんだんと汚くなる。これがノイズを付加する拡散過程。

部屋が汚い状態が「ノイズがたくさんの状態」で、そこから少しずつ片付けていくことで、「綺麗なお部屋、つまり望む画像」を推測している。途中でどう片付けていくかはアルゴリズムが決めている。

なぜ、画像生成素人のわたしが語るのか

私は趣味で画像生成をしている程度で、本格的に生成画像に取り組んでいる人とは知識も能力も雲泥の差がある。ただ、プロンプトをデザインするなかで重要なことが共通している。

イメージのズレ

私は、赤い美味しそうな林檎を思い描いたし、１本のバナナを生成したいのだ。

photo of an apple / a banana / a single of banana

なぜこのようなイメージのズレがおきるのだろうか？

この認識のズレが起こる理由はAIが学習する多様なデータによるもので、それがどのように影響するかを説明。これはChatGPTを含む、生成AI全般で共通する問題である。

アートや文化における林檎にかかわる林檎を調べてみよう。

たとえば

アダムとイブの物語: 禁断の果実

白雪姫: 毒入りの林檎

ギリシャ神話黄金の林檎: 黄金の林檎を巡って争う
アップル社のロゴ: かじられた林檎の形
…..

林檎のシチュエーション、状態。そして歴史的、芸術的、または文化的な背景を持つ林檎に想いをはせることが大切だ。

Appleの製品が全部林檎だったら？

今回はmidjourneyで取り組む。
他にもウェブ上で初心者でも使える画像生成サービスはいくつもある。

「画像生成AIはすべて一緒なのか？」という疑問が浮かぶ人もいるかもしれない。

そもそもAI:人工知能(Artificial Intelligence)について考えると
コンピューターが人間のように考えたり学んだりすることができる技術。AIモデルは、たくさんの情報を使って問題を解決したり、予測したりするスペシャルな「考える頭脳」だ。

生成AIはその中でも、新しいデータや情報を創造的に生成することができる技術。

色々変数は他にもあるが、簡単にいえば脳みそが違えば考えかたや出力内容も違うってことだ。

基本構文を知る

前述したようにモデルが違うとプロンプトの作り方も変わってくるのだが、一般的に大きな文章構造は似ている。
以下は、midjourneyの基本的な画像生成のプロンプトの構文だ

各要素プロンプトの説明と具体例

Subject(主題): プロンプトの主題を設定し、生成する画像の主要な要素を定義。例: "a botanical-bearded fairy"（植物のヒゲを持つ妖精）、"sunset over the ocean"（海上の夕日）
Other Details & Surroundings(その他の詳細と環境): 主題以外の要素や環境を定義。例: "magical details, prince, flowing hair, sky-eyes, symmetrical mossy antlers, intensely sad gaze, wearing a floral diadem"（魔法の詳細、王子、流れる髪、空の目、対称的な苔むした角、激しく悲しむ視線、花の冠をかぶっている）、"surrounded by palm trees, under a clear blue sky"（ヤシの木に囲まれ、晴れた青空の下）
Stylizations, Media Type, Artists(スタイル化、メディアタイプ、アーティスト): 生成する画像のスタイルやメディアタイプ、アーティストを定義。例: "in the style of ArtGerm, Alyssa Monks, Studio Ghibli, close-up, glamour shot"（ArtGerm、Alyssa Monks、Studio Ghibliのスタイルで、クローズアップ、グラマーショット）、"in the style of impressionism, like Monet or Renoir"（印象派のスタイルで、モネやルノワールのように）
Parameters(パラメータ): 生成する画像に含めたくない概念や要素および、バージョンやアスペクト比を定義。また、--stylizeパラメータはMidjourneyが生成する画像の芸術的な色彩、構成、形状に影響を与える。低い値はプロンプトに密接に一致するが芸術性が低い画像を、高い値は芸術性が高いがプロンプトから離れた画像を生成する。例: "--no <取り除きたい概念・要素・意味> --v 5.2 --ar 9:16 --stylize 100"（バージョン5、アスペクト比9:16、スタイル化の強度100）

特記事項

プロンプトの初期部分に重きを置く: Midjourneyはプロンプトの初期部分に重きを置く。特定の特徴を強調したい場合はそれをプロンプトの初期部分に置く。
適切な句読点の使用: Midjourneyは適切に句読点が付けられたプロンプトを使用すると、Midjourneyはより良い結果を生成する。カンマは節を分けて混乱を減らすのに役立ち、ピリオドはさらなる明確さを加える。
"weights"の使用: 特定のプロンプト要素を他の要素よりも強調する必要がある場合、"weights"を使用してMidjourneyが要素に置く重視度を制御する。重みを追加するには、重みの数値に続けて二重コロンを使用。例: "cat::2"は重みを2に設定し、その要素を他の要素の2倍重要にする。
-stylizeパラメータの使用: Midjourneyは芸術的な色彩、構成、形状を重視する訓練を受けている。--stylizeパラメータはこの訓練がどの程度適用されるかを制御する。低い値はプロンプトに密接に一致するが芸術性が低い画像を、高い値は芸術性が高いがプロンプトから離れた画像を生成する。--stylizeのデフォルト値は100で、[デフォルトモデル]を使用する場合は0-1000の整数値を受け付ける。

画像生成プロンプト作成を手伝ってくれるプロンプト

このプロンプトを打ち込む、もしくはCustom InstructionでSystem Promptに設定して使うのがよいだろう。

**Objective**

To assist users in crafting effective prompts for Midjourney, ensuring the generation of vivid and specific images that align with their vision. This guideline emphasizes understanding the conceptual space of prompts and the need to consider context-specific situations.

General Structure of Prompts
<Subject>, <Other Details & Surroundings>, <Stylizations, Media Type, Artists>, <Parameters>

Description and Examples for Each Element
Subject: Defines the main element or theme of the image.

Example: "natural red apples"
Example: "product shot of a red apple on EC"
Other Details & Surroundings: Describes additional elements or the environment.

Example: "displayed as products, neatly arranged, inside of store, wide view"
Example: "a cityscape at sunset"
Stylizations, Media Type, Artists: Specifies the style, media type, or artist influence for the image.

Example: "in the style of a modern-day photograph"
Example: "rendered in watercolor"
Parameters: Defines exclusions, versions, aspect ratios, and other specific parameters.

Example: "--no device, mac --ar 16:9"
Example: "--ar 4:3"
Key Considerations
Understanding the Conceptual Space: Recognize that words or phrases exist within a conceptual space, and the interplay of these concepts determines the final output.

Context-Specific Situations: Consider the specific context in which the image will be used. This can lead to more accurate and simple prompts.

Example: For an e-commerce product image, "product shot of a watch on a white background" will likely yield a straightforward and clear image.
Example: For a nostalgic effect, "old-fashioned street with vintage cars, in sepia tone" provides a clear context.
Simplicity is Key: Aim to capture the desired image with positive prompts, avoiding excessive negative prompts.

Emphasize Important Elements Early: Midjourney gives more weight to the initial parts of the prompt.

Punctuation Matters: Proper punctuation adds clarity.

Use of "weights" and Stylization Parameter: Allows for emphasis and artistic influences.

Note: Prompts for image generation should be in English and large font.

このように描きたいイメージを伝えると画像生成用プロンプトを書き出してくれる。

問題に挑戦

ここまで理解したら実践である。
今回は３つの問題を用意した。

最終問題は….

Apple.incと林檎の２つが混在するのでちょっと難易度が高いので、まずは以下の練習問題から取り組むのがおすすめ。

練習1

v4の時代なんて"an apple"だけだと酷いもんだ。

"product shot of an apple on EC" というプロンプトは、e-commerce (EC) サイトで使用される商品撮影のスタイルを指す。ECサイトでは、商品の特性と魅力を強調するために、シンプルで現実的な画像がしばしば使用される。

水滴や他の装飾は、商品の本質的な特性を隠す可能性があるため、このような画像では避けられることが一般的だ。したがって、このプロンプトは、水滴なしで美味しそうな赤いリンゴのシンプルな表現を期待できるのだ。

つまり….

これが大事である。

練習2

これは簡単なので解説を飛ばします。

練習3

１度ではうまくいかず、何度か試行錯誤があるだろう。
私のいまいちな作品を掲載する

チャレンジしてくれた人をTwitterで発見したので勝手に載せていく

⋱AIの講座に参加しました！⋰

画像生成AIのドリームスタジオとchatGPTを使って【林檎が並んでいるApple Store】を画像生成してみました。

一進一退で難しいけど楽しいです！🍎
初心者にも優しい講座ありがとうございました✨

今の私の精一杯のApple Store🍎と試行錯誤の様子です😆 https://t.co/pC3duEsZj8 pic.twitter.com/gVK6nsIKZQ
— ハタケヤマモエ🎨🦕 (@moe_htk) August 10, 2023

色々生成プロンプトはこれ以外にも考えられますが
例えば…..

natural red apples, displayed as products, neatly arranged, in the Apple store, inside of store, wide view- no device, mac, --v 4

red delicious apple, displayed as items, neatly arranged on high long table, in Apple Store, inside of store, Apple Inc, product shot --v 5.2

single natural red apples displayed on individual tables with ample space around each on the wooden table, inside of Apple store in shibuya , Apple inc --no device, mac, trees --ar 16:9 --v 5.2

概念空間を想像する

あなたが思い描いたものは複数の概念、意味、要素…から成り立っている。

私が持っているイメージは大きな箱（概念空間）があるとしたら、そこからほしいものを彫刻のように削り出すのだ。もちろん、複数削りとるときもある。

彫刻の石であればお互いぶつけたら壊れるだけだ。
ただ、AIのもつこの空間の中ではそれらを合成することもできる。

実は多くの人がChatGPTのような対話型AIになると、この概念空間を操作することを忘れてしまう。プロンプトデザインにおいて、差がつくポイントの１つである。

役に立った！面白かった！って少し思った人はぜひ、いいねや拡散お願いします！

本日講義した内容を記事にまとめました。
「分かりやすい！」と生放送を見てくれていた知り合い数人から連絡が来て、テンションが上がりました。

それではみなさま、素敵な生成AIライフをお楽しみください。https://t.co/jdOLrxEs4q #schoo
— しょーてぃー / Experience & Prompt Designer (@shoty_k2) August 10, 2023

Schooで担当した他の授業

この記事が参加している募集

#AIとやってみた

34,547件

いただいたサポートは、記事を書くモチベーションをあげるためのグミの購入に使わせていただきます！