見出し画像

ChatGPTで画像生成AIのプロンプトを日本語で作成(すべて無料)

※ノーガキ不要の方は、下記目次から「実際にChatGPTでプロンプトを作ってもらう」に飛んでください。

はじめに

ここ数か月、毎日メディアでその名前を聞かないことがないChatGPT。そして、ここ最近急速に広がっている画像生成AI。この2つを使い(こなし?)、画像生成に必要なプロンプト(「どんな画像を生成させるのか」というAIへの指示書のようなもの。呪文とも言われるもの)をChatGPTに自動的に生成させ、画像生成AIに、効率良く、より意図した画像を生成させよう、ということが本稿の趣旨になります。

すべて無料です

本稿では無料のChatGPT(GPT-3.5)をそのままWebから使用します。Web UIに組み込んだAPIを使った有料サービスを使ったりはしません。ChatGPTの始め方や基本的な使い方は他の記事等に譲ります。
GPT-4も面白そうなので、そのうち使ってみたいですね(2023年4月現在、GPT-4は有料)。

本稿では、次のYouTubeを元に、それを日本語でChatGPTに指示してプロンプトを作成する方法を探ります。

ChatGPT BATCH Render in A1111 - NO Install Required by @OlivioSarikas

現在の画像生成AIの課題(?)

そもそも、AIによる画像生成になぜChatGPTの力を借りたいのかというと、そのプロンプト作成に関して以下のような課題や希望があるためです。

  1.  画像生成に必要なプロンプトは英語で書かれ、かつ自然言語とはやや異なるルールで書かれるため、直感的な作成が難しい

  2. こんな画像を生成したいと思って私たちがプロンプトを作成しAIに指示をしても、それが必ずしも有効なプロンプトとは限らない。この表現はこの言い回しだと思って指示をしてもAIがそれを認識しないことも多い。そこでAIが認識できそうな英語の言い回しをChatGPTに挙げてもらい、生成したい画像に近づけるための言い回しを見つけ出したい

  3. 生成する画像のアイディアをChatGPTにプロンプトという形で作ってもらい、そうして生成されたプロンプトやそこから生成された画像を確認し、それを自分でアレンジすることで自分の中にある以上のクリエイティビティを発揮したい

ChatGPTを使うことで一度にたくさんのプロンプトが用意でき、自分が意図した画像を効率良く生成することができるようになります。
通常、画像生成AIで生成された画像は必ずしも全てが使えるものであるとは限らないため、より品質を追い込む必要がある場合はより多くのプロンプト、より多くの生成回数がポイントになってきます。
ChatGPT×画像生成AIはそれを実現する手助けになります。

ChatGPTについて

ChatGPTは、OpenAIによって開発された言語モデルの1つです。GPTは、Generative Pre-trained Transformerの略であり、トランスフォーマーと呼ばれるニューラルネットワークを用いて、大規模な自然言語処理のタスクを解決することができます。ChatGPTは、GPTの派生であり、自然言語の生成タスクに特化しています。ChatGPTは、巨大な量のテキストデータを学習し、そのデータを元に、与えられたテキストから次の文を自動的に生成することができます。

画像生成AIについて

画像生成AIは、人工知能を用いて、与えられた条件やプロンプトに基づいて画像を生成する技術です。特に最近話題のStable Diffusionは画像生成AIのアルゴリズムの1つであり、特に高品質な画像を生成することに優れています。Stable Diffusionは、異なる解像度で画像を生成することができ、より高い解像度でより細かい詳細を含んだ画像を生成することができます。
本稿ではこのStable Diffusionを用いた画像生成を試します。

実際にChatGPTでプロンプトを作ってもらう

ChatGPTを使って作成できるプロンプトは様々な種類があります。例えば、特定の人物や場所、季節、イメージの雰囲気など、画像に含めたい要素を指定することができます。また、背景や光の当たり具合など、画像全体の雰囲気を指定することもできます。ChatGPTは、それらの条件を元に、さまざまなプロンプトを自動生成することができます。

Stable Diffusion WebUIに必要な拡張機能など

基本的に、必ず追加しなければならない機能はありません。ただし、Addional Networksを使うと少し便利にはなります。

Scriptsの「Prompts from file or textbox」
本稿ではtxt2imgで画像生成を行います。同画面にある、Scriptsの「Prompts from file or textbox」を使用してまとまったプロンプトを指定しますが、この機能は2023年4月現在Stable Diffusion WebUIに標準で組み込まれています。

Additional Networks
また、画像生成にLoRAを用いる場合、次項から示すような定型部分に固定で指定することもできますが、別途「Additional Networks」という拡張機能を使用できると、プロンプトとLoRAを分けて設定することができて便利です。
かなりメジャーな拡張機能なのでインストール済みの場合も多いと思いますが、Google Colab環境には標準ではインストールされないかと思います。
Google Colab環境の場合は、次の数行をLoRAをインストールした後の、WebUI起動コマンドの前までに追加するとインストールされます。

!git clone https://github.com/kohya-ss/sd-webui-additional-networks /content/stable-diffusion-webui/extensions/sd-webui-additional-networks
!rm -rf /content/stable-diffusion-webui/extensions/sd-webui-additional-networks/models/lora
!ln -s /content/stable-diffusion-webui/models/Lora/ /content/stable-diffusion-webui/extensions/sd-webui-additional-networks/models/lora

わからない場合は、こちらのGoogle Colabノートブックを参考にしてみてください(少し上記とは記載箇所が違います)。
https://www.dropbox.com/s/5aucbspkidpzddl/chilloutmix_buildup.ipynb.txt?dl=0

Dynamic Prompts
本稿末に「これからの課題」をまとめていますが、その中に”ChatGPTにある一定の条件のプロンプト生成を指示するとエラーになる”というものがあります。
これを回避するために、生成されたプロンプトを一部改変して実行する、という方法が検討される可能性があります。
本稿ではこの方法については深く言及しません(未調査のため)。

ChatGPTに指示する内容

具体的にChatGPTに作ってもらうのは写真の内容だけで、写真の品質やライティングは別途人間が用意したものを前後に付加させるように指示します。
冒頭に紹介したYouTube動画では、ChatGPTに次のような手順で指示をしています。

  1. プロンプトの例を提示する

  2. どんなプロンプトをいくつ作って欲しいかを伝える

  3. ChatGPTがプロンプトを生成する際のルールを伝える

    1. 代名詞を一切使わないこと

    2. プロンプトに適さない次の単語を使わないこと: in a, the, with, of, an, and, is, by, of

    3. プロンプトは次の言葉で始めること:(主に生成する画像の品質に関する定型のプロンプト)

    4. プロンプトは次の言葉で終了すること:(主にライティングに関する定型のプロンプト)

    5. 生成するプロンプトは2行の間隔を空けること(※生成されたプロンプトがStable Diffusion WebUIですぐに使えるようにするため)

    6. ダブルクウォート「"」で囲まないこと(ChatGPTはときどき生成するプロンプトを"で囲むときがあるため)

ご紹介したYouTubeでは全て英語でChatGPTに指示をしていますが、私の肌感覚ではChatGPTは日本語もかなり高いレベルでカバーされていると思います。
元の英語をアレンジすることで指示することももちろん可能ですが、日本語でわかりやすく指示することもできます。
ここでは2行目のプロンプトの例以外はあえて日本語で指示してみたいと思います。

日本語によるChatGPTの指示の例

テキストから画像へのAI画像生成のための、若い女性の美しいポートレートの高品質プロンプトの例です。プロンプトは英語で書かれます。

- 8k, RAW photo, best quality, masterpiece, high detail RAW color photo, professional photograph, (realistic, photorealistic:1.37), (high detailed skin:1.2), high resolution, beautiful detailed eyes, (hard focus:1.4), (sharp focus:1.4), 1girl  wearing detailed off-the-shoulder knit dress with (vibrant and cheerful color tones:1.3), (skinny pants, detailed embroidery:1.3), (solo:1.3), city street, looking at viewer, bokeh, lens flare, (vignette:0.8), dramatic lighting, cinematic lighting, back light, professional lighting, physically-based rendering, ulzzang-6500-v1.1, pureerosface_v1

同じシーンの例をあと 5 つ挙げてください。ただし、1 日の異なる時間帯、異なる季節、異なるスタイルの服やポーズ、アクセサリーにしてください。
次のルールを満たしてください:
- 代名詞を一切使わないでください。
- これらの単語を使わないでください: in a, the, with, of, the, an, and, is, by, of
- それぞれのプロンプトの最初は次の言葉で始めてください: "8k, RAW photo, best quality, masterpiece, high detail RAW color photo, professional photograph, (realistic, photorealistic:1.37), (high detailed skin:1.2), high resolution, beautiful detailed eyes, (hard focus:1.4), (sharp focus:1.4), 1girl "
- それぞれのプロンプトの最後は次の言葉で終了してください: "bokeh, lens flare, (vignette:0.8), dramatic lighting, cinematic lighting, back light, professional lighting, physically-based rendering, ulzzang-6500-v1.1, pureerosface_v1"
- 挙げていただくプロンプトは、2行の間隔を空けてください。
- 生成するプロンプトは「"」で囲まないでください。

試しにこの指示をそのままChatGPTに与えてみてください。一度にまとめて指示できます。コピー&ペーストで入力しない場合は、Shift+Enterで改行できます。
例えば次のようにプロンプトを5つ生成してくれます。長すぎると途中で切れている場合があります。その場合は「後半が切れているので続きを出力してください。」と指示しましょう。

8k, RAW photo, best quality, masterpiece, high detail RAW color photo, professional photograph, (realistic, photorealistic:1.37), (high detailed hair:1.2), high resolution, stunning detailed eyes, (soft focus:1.4), (shallow depth of field:1.4), 1girl sitting on a bench in a park, wearing a flowy summer dress with (soft pastel colors:1.3), (sandals, dainty jewelry:1.3), (peaceful:1.2), surrounded by blooming flowers, looking away from the camera, sun rays, lens flare, (vignette:0.8), natural lighting, warm and bright, physically-based rendering, ulzzang-6500-v1.1, pureerosface_v1

8k, RAW photo, best quality, masterpiece, high detail RAW color photo, professional photograph, (realistic, photorealistic:1.37), (high detailed lips:1.2), high resolution, captivating detailed eyes, (dramatic focus:1.4), (sharp edges:1.4), 1girl standing on a rooftop at sunset, wearing a form-fitting cocktail dress with (bold and bright color tones:1.3), (high heels, statement jewelry:1.3), (confident:1.2), overlooking the city skyline, striking a fierce pose, clouds in the background, lens flare, (vignette:0.8), moody lighting, warm and golden, physically-based rendering, ulzzang-6500-v1.1, pureerosface_v1

8k, RAW photo, best quality, masterpiece, high detail RAW color photo, professional photograph, (realistic, photorealistic:1.37), (high detailed eyebrows:1.2), high resolution, expressive detailed eyes, (intense focus:1.4), (subtle blur:1.4), 1girl walking on a beach, wearing a flowy maxi dress with (pastel beachy tones:1.3), (barefoot, beachy accessories:1.3), (carefree:1.2), looking away from the camera, waves crashing in the background, lens flare, (vignette:0.8), natural lighting, soft and dreamy, physically-based rendering, ulzzang-6500-v1.1, pureerosface_v1

8k, RAW photo, best quality, masterpiece, high detail RAW color photo, professional photograph, (realistic, photorealistic:1.37), (high detailed nails:1.2), high resolution, alluring detailed eyes, (soft focus:1.4), (shallow depth of field:1.4), 1girl posing in a garden, wearing a tailored pantsuit with (earthy tones:1.3), (pointed-toe heels, statement earrings:1.3), (elegant:1.2), surrounded by lush greenery, looking directly at the camera, lens flare, (vignette:0.8), soft and natural lighting, physically-based rendering, ulzzang-6500-v1.1, pureerosface_v1.

8k, RAW photo, best quality, masterpiece, high detail RAW color photo, professional photograph, (realistic, photorealistic:1.37), (high detailed skin:1.2), high resolution, beautiful detailed eyes, (hard focus:1.4), (sharp focus:1.4), 1girl standing on the beach, wind blowing through her hair, wearing a flowy yellow sundress with delicate lace details, holding a seashell up to her ear, looking out towards the ocean, surrounded by golden hour light, warm and serene. bokeh, lens flare, (vignette:0.8), dramatic lighting, cinematic lighting, back light, professional lighting, physically-based rendering, ulzzang-6500-v1.1, pureerosface_v1

これを次のようにStable Diffusion WebUIのScript→「Prompts from file or textbox」に設定します。
その際、プロンプトは空にしておいてください。ネガティブプロンプトは設定しておいてください。
LoRAを指定したい場合はAdditional Networksという拡張機能をインストールしておき、そこで指定すると便利です。
LoRAにトリガーワードがある場合は前部分か後部分の定型部に含めましょう。

プロンプトは未入力のままとする。NegativePromptは指定しておきます。
ChatGPTが生成した内容をそのままコピー&ペーストします。
たまにプロンプトの先頭にナンバーがあったり
プロンプトが""で囲われている場合があるので注意してください。
Additional NetworksにLoRAを指定した例。
左上のEnableのチェックは忘れやすいので注意してください。

こんな画像が生成されました。

1girl sitting on a bench in a park, wearing a flowy summer dress with (soft pastel colors:1.3), (sandals, dainty jewelry:1.3), (peaceful:1.2), surrounded by blooming flowers, looking away from the camera, sun rays
※画像生成AIではよくあるのですが、手が一部変に生成されてしまいました。
不快な思いをする方がいらっしゃる可能性があるため一部ボカシを入れています。
1girl standing on a rooftop at sunset, wearing a form-fitting cocktail dress with (bold and bright color tones:1.3), (high heels, statement jewelry:1.3), (confident:1.2), overlooking the city skyline, striking a fierce pose, clouds in the background
※想定外に水着の画像が生成されたため、ボカシを入れています。
1girl walking on a beach, wearing a flowy maxi dress with (pastel beachy tones:1.3), (barefoot, beachy accessories:1.3), (carefree:1.2), looking away from the camera, waves crashing in the background
1girl posing in a garden, wearing a tailored pantsuit with (earthy tones:1.3), (pointed-toe heels, statement earrings:1.3), (elegant:1.2), surrounded by lush greenery, looking directly at the camera
※手や脚が変な風に生成されました。不快な思いをする方がいらっしゃる
可能性があるため一部ボカシを入れています。
1girl standing on the beach, wind blowing through her hair, wearing a flowy yellow sundress with delicate lace details, holding a seashell up to her ear, looking out towards the ocean, surrounded by golden hour light, warm and serene

座っている画像を生成すると手や脚を組む画像が生成されることが多く、その場合に指がおかしくなったり脚が増えたりすることがあります。
このような点は現在の画像生成AIの改善点かもしれません。
Negative Promptを指定することでそれもかなり軽減されますが、今回の方法で生成した場合は特におかしな画像が生成される可能性が多少高い気がしています。
それは、私の場合、普段は座っている画像を生成することが少ないためだと思います。その意味では、ChatGPTでプロンプトを生成しそれを元に画像生成を行うことは、いつもと違う新しい視点で画像生成が行えたということでもあると思います。

ChatGPTへの指示のアレンジ

以上で見てきたように、ChatGPTへの指示はかなり自然な日本語で行うことができました。
したがって、上記のようなポイントを押さえれば皆様もかなり自由にゼロから指示を行うことができるかもしれません。
ただ、ここではより効率を上げるため、上記の指示をアレンジすることでより簡単に自分の思う通りの指示を行うためのポイントをまとめたいと思います。

1.普段のプロンプトを3つに分割する
プロンプトを次の内容で3つのセクションに分けます。その上で、ChatGPTには真ん中のセクションのみを主に生成してもらい、生成する画像の品質やライティングなどの共通部分をその前後のセクションにまとめ、その部分は常に固定の文字列として、生成されたプロンプトに付加する形にします。

その前後の部分は、例では次のように指定しています。

  • 前部分は主に生成する画像の品質の指定(固定部分)
    また、末尾に「1girl 」を入れることで女性に関連する修飾からプロンプトを生成してもらいます。
    8k, RAW photo, best quality, masterpiece, high detail RAW color photo, professional photograph, (realistic, photorealistic:1.37), (high detailed skin:1.2), high resolution, beautiful detailed eyes, (hard focus:1.4), (sharp focus:1.4), 1girl 

  • 真ん中部分は写真の説明を指定(ChatGPTに考えさせる部分)
    「一人の女性が公園のベンチに座っている……」といった指示をプロンプトの形式で指定します。

  • 後部分は主にライティングに関する指定(固定部分)
    bokeh, lens flare, (vignette:0.8), dramatic lighting, cinematic lighting, back light, professional lighting, physically-based rendering, ulzzang-6500-v1.1, pureerosface_v1

2.生成したい画像の説明を考える
ChatGPTには生成させるプロンプトの例を示しますが、それがどのような画像を生成するためのものであるかを与える指示の冒頭で伝えます。
先述の例では「若い女性の美しいポートレートの高品質プロンプトの例です」としています。

3.生成したい画像に沿ったプロンプトの例を示す
普段使っているようなプロンプトを改行を含まずに1行で示します。Negative Promptは含みません。
その際、1.で3分割した形式に直したものにすべきです。

4.バリエーションのパターンを考える
ChatGPTが生成するプロンプトにどのようなバリエーションを持たせるかを指定します。
先述の例ではYouTubeで用いられていたものをほぼそのまま採用し、「1日の異なる時間帯、異なる季節、異なるスタイルの服やポーズ、アクセサリー」を変えるよう指示しています。

以上を元に、ChatGPTの指示をアレンジします。次をそれぞれ変えて試してみてください。

例えば、次のように変えてみます。

  1. 前部分
    best quality, masterpiece, realistic,1dog 
    後ろ部分
    cinematic lighting

  2. 小さい子犬の可愛い写真

  3. best quality, masterpiece, realistic, 1dog running toward camera, white long hair, cinematic lighting

  4. 異なる犬種、走る、寝るなどの異なる行動、異なる天気

これよりChatGPTへの指示は次のようになります。

テキストから画像へのAI画像生成のための、小さい子犬の可愛い写真の高品質プロンプトの例です。プロンプトは英語で書かれます。

- best quality, masterpiece, realistic, 1dog running toward camera, white long hair, cinematic lighting

同じシーンの例をあと 5 つ挙げてください。ただし、異なる犬種、走る、寝るなどの異なる行動、異なる天気にしてください。
次のルールを満たしてください:
- 代名詞を一切使わないでください。
- これらの単語を使わないでください: in a, the, with, of, the, an, and, is, by, of
- それぞれのプロンプトの最初は次の言葉で始めてください: "best quality, masterpiece, realistic, "
- それぞれのプロンプトの最後は次の言葉で終了してください: "cinematic lighting"
- 挙げていただくプロンプトは、2行の間隔を空けてください。
- 生成するプロンプトは「"」で囲まないでください。

次のように生成されました。
プロンプトの最後はライティングに関する「cinematic lighting」を指定していましたが、ChatGPTの方でそれぞれの写真に合わせてより良いものに変更されているようです。

best quality, masterpiece, realistic, 1dog sitting on green grass, black and white fur, looking up at camera, bright sunlight

best quality, masterpiece, realistic, 1dog jumping over hurdle, brown fur, blue sky background, lens flare

best quality, masterpiece, realistic, 1dog playing fetch, golden fur, green grass, sunny day

best quality, masterpiece, realistic, 1dog lying in the snow, fluffy white fur, snowflakes falling, cold winter day

best quality, masterpiece, realistic, 1dog splashing in the water, short brown fur, blue water background, sunny day

これで画像生成をしてみた結果がこちらです。

best quality, masterpiece, realistic, 1dog sitting on green grass, black and white fur, looking up at camera, bright sunlight
best quality, masterpiece, realistic, 1dog jumping over hurdle, brown fur, blue sky background, lens flare
best quality, masterpiece, realistic, 1dog playing fetch, golden fur, green grass, sunny day
best quality, masterpiece, realistic, 1dog lying in the snow, fluffy white fur, snowflakes falling, cold winter day
best quality, masterpiece, realistic, 1dog splashing in the water, short brown fur, blue water background, sunny day

犬の画像を生成したのは初めてなのですが、バリエーション良く生成できているのではないでしょうか。

また、こうして生成されたプロンプトを確認して、「ふわふわの白い毛皮」の表現に『fluffy white fur』が用いられているけれど、良く再現されているな/どうも再現率は良くないな」ということがわかり、自分でプロンプトを考える際のヒントになっています。

まとめ

本稿では画像生成AIにStable Diffusionを用い、その画像生成に必要なプロンプト生成にChatGPTを日本語で用いる方法を紹介し、実際にそのプロンプトで画像生成を行うところまでを実践しました。
以上の内容は @OlivioSarikas さんが YouTube で紹介された内容に沿って、ChatGPTへの指示を日本語で行う方法を試したものになります。

 私自身はChatGPTを十分活用できているかというと、全く活用できていません。
この記事もChatGPTに書かせてみたかったのですが、9割以上自分で書いています(大汗
現在の第三次AIブーム(とかつて言われていた)ものが始まって10年が経過しています。以前は映画の中か、さもなければ夢物語だったAIの活用が、もはや日常的に当たり前のツール(もはやそれ以上か)になりました。
さらに、今見えているAIの姿は今一瞬のものであり、それらは留まることなく、これからももっとずっと想像より速いスピードで発展していくことでしょう(今年中にも「画像生成AI」という言葉は過去のものになり、それらは「動画生成AI」に置き換えられていくのではないか、とさえ感じています。その先は何でしょうか?)。

最後に、冒頭で示した「プロンプト作成に関する課題や希望」がChatGPTを用いることでどの程度解消されたのか確認してみます。

1. 画像生成に必要なプロンプトは英語で書かれ、かつ自然言語とはやや異なるルールで書かれるため、直感的な作成が難しい
ChatGPTへの指示のうち、プロンプトの例以外は日本語での指示を行いました。この日本語での指示がどれだけ正確にChatGPTに理解され、生成されるプロンプトがどの程度の精度なのかは詳細にはまだ検証できていません。
しかし、本稿ではより手軽にChatGPTを用いることによって、プロンプトを自分で考え出す以上の気づきを得ることにつながったと思います。

2. こんな画像を生成したいと思って私たちがプロンプトを作成しAIに指示をしても、それが必ずしも有効なプロンプトとは限らない。この表現はこの言い回しだと思って指示をしてもAIがそれを認識しないことも多い。そこでAIが認識できそうな英語の言い回しをChatGPTに挙げてもらい、生成したい画像に近づけるための言い回しを見つけ出したい
ChatGPTが生成するプロンプトに用いられる英語は、ネット上に存在する日本語情報の十数倍とも言われる英語情報を元に生成されます。その多彩な表現を利用することで、プロンプトに有効な表現、有効でない表現をその中から見つけ出すことができるかもしれません。本稿ではその端緒を体験できたのではないかと思います。

3. 生成する画像のアイディアをChatGPTにプロンプトという形で作ってもらい、そうして生成されたプロンプトやそこから生成された画像を確認し、それを自分でアレンジすることで自分の中にある以上のクリエイティビティを発揮したい
本稿では生成されたプロンプトのアレンジは行いませんでした。ただ、生成されたプロンプトから得られる気づきは多く、それは行動の表現、色のニュアンス、天候、ライティングなど様々です。生成するプロンプトが多ければ多いほど、そこから生成する画像が多ければ多いほど、気づき(得られる情報)も多くなっていくかもしれません。

それらの情報は画像生成に関するツールということになりますが、もしも「AI画像クリエイター」を名乗るならば、「ツール」ではなく、それをどう使うかという「感性」で競い合いたいものですね。

これからの課題

本文でも言及したものを含め、本手法では次のような課題が浮かび上がりました。

  1. どうしても手や脚がおかしな形で画像生成されてしまうことが多い

  2. ChatGPTが生成を拒否するため、ある一定の条件のプロンプトが生成できない

1. どうしても手や脚がおかしな形で画像生成されてしまうことが多い
これは2023年4月現在の画像生成AIの課題の一つになっています。本稿執筆時にも腕が2本になったり、伸びた腕の先が足になっていたり、座った足がなんともぐにゃぐにゃしていたり、といった写真が量産されました。ひょっとしたら今回の方法ではNegative Promptが効いていないのではないか、という疑いさえ抱いてしまうほどでした。
しかし、生成された画像のデータの情報をImage Browserから確認すると、確かにNegative Promptは含まれています。

ChatGPTが生成したプロンプトを元に生成した画像のデータ。Image Browserという拡張機能から
確認できる。そのGenerate infoに使用されたプロンプトなどが表示されており、
そこにNegative Promptが確認できる。

そこで、生成したプロンプトを1つ取り出し、txt2imgで通常通り生成した場合も検証してみましたが、やはり「座っているポーズ」の影響なのか、同様に手足がおかしな画像が生成されてしまいました。

通常通り、プロンプトとNegative Promptを指定して改めて生成(4枚まとめて)
生成された画像。問題がありそうなのは左上のみではある。
よく見ると右上の右手も少し変である。

この課題は本手法に限ったものではなく、画像生成AIを使用してより多彩な画像生成を行う場合には、より適切なNegative Promptが必要であるということだと思います。

2. ChatGPTが生成を拒否するため、ある一定の条件のプロンプトが生成できない
この問題は特に、水着などの画像生成のためのプロンプトをChatGPTに指示すると発生するようです。
正確にはChatGPTのエラーというよりは、そういった内容の利用を抑制するためのもののようです。

水着画像を生成するためのプロンプトを指示したところ、途中でこのようなエラーとなった。
適切なものではある。

対処はいくつか考えられますが、ここは皆さんそれぞれで探っていくのも「ChatGPTハッキング」のような感じで面白いところかもしれません。
例としては、ChatGPTに生成させるプロンプトに含まれる「着ているもの」の部分を定型の文字列とし、Dynamic Promptで画像生成時に置き換える、ということが考えられます。
置き換える水着に関しても、事前にChatGPTに20〜100パターン程度を出力させておき、それをファイルに保存しておけば良いと思います。
ただし、Scripts from file or textboxと組み合わせることができるのかは検証していません。

もしくは、水着を着せる女性の方(1girl)を他のものに置き換えてプロンプトを生成させる、という方法も考えられます。
生成される結果がセンシティブなプロンプトになりにくければ、問題なくプロンプトの生成が完了する可能性があります。
その際、「どういうプロンプトを作成したいか」の箇所もいろいろ変えてみると面白いでしょう。
いろいろ試してみることでChatGPTへの理解も深まってくるかもしれません。

以上のようにChatGPTのエラーを回避することができる可能性はありますが、このChatGPTのエラーはAIを健全に活用するために必要な処置であり、それを回避しようとすることはAIとの付き合い方としては不適切であると言えます。
また、あまりにエラーが続くとアカウントが凍結されてしまう恐れもあるのではないでしょうか。
(こうしてインターネットに上記のような検討を公表しておいて矛盾していますが、)AIを利用する際は、周囲に不快感を与えないよう細心の注意を払う必要があります。また、その利用方法が自分自身にどう返ってくるのかをしっかり考えないといけないと思います。

終わりに

ここまで、一晩で書いたグダグダな内容をお読みいただきありがとうございました。
気になる点はちょこちょこ修正・更新していきます。
ご意見、疑問、質問、感想、ご要望などありましたらコメントにてぜひお願いいたします!
重ねて、ありがとうございました!

私が感じる画像生成AI

私はこのような画像生成を始めて1か月も経っていませんが、画像生成AIが画期的であることには大いに興奮するものの、これが私たちにとってヘルシーなものであるかは、正直、大いに疑問に感じています。
正直に言って、現在の画像生成AIは「AIポルノ生成器」の側面があります。少々インターネットに詳しければ、小中学生でも無修正のポルノ画像を生成することができます。既に同級生のそのような画像を生成している少年もたくさんいると私は確信していますし、それを使った犯罪が既にどこかで起こっているのではとさえ思います。
社会的にこの問題が議論されるべきだと私は感じていますし、より多くの人たちに問題意識を持ってもらいたいと思っています。

一方で、私はAIに関して100%賛成派です。海外ではAIのあまりの発展に危機感を覚える人、違和感や気持ち悪さを覚える人、AI研究者もまとめて憎しみを覚える人もいると言います。AIに関する訴訟のニュースも聞きますし、これからも増えていくかもしれません。
AIは危険だという著名人もいらっしゃいますね。当然ですがAIは危険です。人間以外のものが人間を超えるのですから当然です。
しかし、そういうことも含めて人類の営みだと私は思っているので、危険だと言っても仕方がないのではないかなと思います。
(そういうことは核兵器を廃絶してから言ってくれ、といつも思います。)

あれ? これは上記のAIポルノ生成器の話と矛盾していますね。その通りだと思います。
矛盾したことも言います。私は人間なので。

本記事投稿後の補足

ルールの追加

本記事執筆後も引き続きいろいろ試していたのですが、画像生成時に帽子があったりパラソルが出たりすると変な画像になりがちなので、今はルールに次も追加してみています。

- ヘアアクセサリはOKですが、麦わら帽子やキャップなどの帽子は使わないでください。
- 傘やパラソルは使わないでください。

皆様もこのようにいろいろカスタムしてみてください。

この記事が気に入ったらサポートをしてみませんか?