![見出し画像](https://assets.st-note.com/production/uploads/images/130620230/rectangle_large_type_2_5e8bf5233569783fb244d00ed43cc87e.png?width=1200)
Midjourneyのプロンプトについてご質問をいただきました。その1(実践編)
このnoteにはMidjourneyのプロンプトについての私なりの考え方とその方法の一例が書いてあります。
それは簡単に言うと「文法ガン無視」「思い付き」の生成法です。
もちろん「これが正しい」とかそんなことはまったくないので、「へ~こんな方法もあるのか~」ぐらいの軽い感じでご覧くださいませ。
プロンプトは、難しく考える人から習うと難しくなり、簡単だと考える人から習うと簡単になります。これが私の考え方の基本です。
noteもあります。
「上村松園さん」のお名前を使用することで、ちょっと懐かしい雰囲気の絵をAIさんに生成していただきました。
[参考] 上村松園さんの絵はpublic domainです。
![](https://assets.st-note.com/img/1706853619326-fJJMNhfIua.jpg?width=1200)
上村松園「春芳」1940年
Q : public domainとは?
A : パブリックドメイン(public domain)とは、著作物や発明などの知的創作物について、著作権をはじめとする知的財産権が発生していない、誰でも利用できる状態のことです。日本語では「公有(こうゆう)」または「公共に帰した」と訳されます。
ただし、パブリックドメインにある知的創作物であっても、以下の場合には、利用に制限があります。
・ 著作権法の規定に抵触する利用
・ 公序良俗に反する利用
・ 著作者の名誉・声望を毀損する利用
パブリックドメインの知的創作物は、著作権の制限を受けずに利用できるため、さまざまな場面で活用されています。例えば、教育や研究、文化活動などの分野で、パブリックドメインの知的創作物が利用されています。
実例
今回のお題は「ちょっと懐かしい雰囲気の絵」ということにしてみました。
この時点ですでに思い付きなので深い理由はまったくありません。(画像生成はMidjourney v6を使用)
まずはただ"girl"と入力してみます。もちろんboyでもDogでもCatでも何でもOK。
すると、4種類の絵が1枚の画像にあらわれました。
![](https://assets.st-note.com/img/1706853761400-S5HWBpouhV.png?width=1200)
そしてこの絵が気に入ったのならもう完成です!!あっという間!!簡単!!すてき!!!
ここで「日本っぽい感じにしよう」と思い付きましたので、プロンプトに日本っぽくなるような単語を足してみます。
日本=着物というベタな考えで、とりあえず「着物」を着ていただくということにしました。プロンプトは"kimono girl"です。簡単ですね。
![](https://assets.st-note.com/img/1706853884652-c7CX9I4LLL.png?width=1200)
右上と右下、v 6.0でも指がダメすぎる・・・。
「プロンプトが思い浮かばない・・・」という方は、この今回のプロンプト「kimono girl --ar 1:1 --v 6.0」をそのまんまMidjourneyに貼り付けてください。
「--ar 1:1」というのは縦横比のことで、この場合は真四角という意味ですよ。
どんな絵が出ましたか?
たぶん私とはまた別のkimono girlが出たと思いますが、それが良いのです!!
memo : プロンプトを送信してから気づいたんですが、実は着物は正しく表現されないことが多い衣服なので注意が必要です。
そもそも着物の構造をAIはガン無視して生成してくださいます。たまに完璧っぽい着物姿が出ることもありますが、それは稀なことです。
なので私は、基本”とりあえず見られる”ぐらいまでは生成し直すようにしています。着物に限らず、AIはなんとなくの見た目しか学習していないのです。
ただ、着物の構造が間違っていても気にしない人は気にしないし、私は「自分自身が納得していればそれで良い」と思っています。
そういえば、今回の絵に勝手に和傘っぽいものが登場していますが、この傘がまた曲者なのです。
ご覧の通り、今回も盛大に軸(中棒)がズレています。そして傘を差せば持ち手を握ることになるので、ほとんどの場合崩れた手指が表示されて絵が台無しになります・・・。
AIアートとは、気に入らない部分がまぁまぁマシになるまでひたすらやり直すものなのです。
とりあえず日本っぽくなったような気がいたしますので次の工程へ。
続きまして、思い付きで"by uemura shoen"を追加し、kimonoという単語を削除しました。
余談ですが、上村松園さんってみなさんご存知ですか?(知らなかったという方はいますぐ検索)
![](https://assets.st-note.com/img/1706853855836-mZ9yOWt0AB.png?width=1200)
ご覧ください!!kimonoという言葉を入れなくてもkimono girlよりそれっぽく絵柄が変化しました!!
つまり"uemura shoen"は有効だということが分かります。これがお名前の力です。(私としては、ちょこっと雰囲気が出たらもうそれでOK)
ただ、この絵はどう見ても上村松園さんの絵とは思えませんね。
これは、いくら絵がパブリックドメインだとは言ってもあまりにも上村松園さんそっくりだと問題になりそうなので配慮がされているからだと思っています。
詳細は不明ですが「uemura shoen = こういう雰囲気」という風に学習したのか、何らかの影響で今回はこうなったのでしょう。
逆に、お名前を入れたのにただのgirlと同じ絵が出たら、それは意味のない言葉ということなので削除しています。(放置することもあります)
・・・話がそれましたが、私の印象では"kimono girl"というプロンプトの絵よりも、kimonoと書かずに"uemura shoen"と書いた方が、どこか懐かしい雰囲気になっているように思います。なので、とりあえず当初の目的が達成されたと言えるので基本のスタイルはこれにて完成です。
ただ、kimonoを書いておかないと洋服になったりもしますので、着物を着てほしい時は入れて置くと安心です。
4種類の絵の統一感については、まぁまぁでしょうか。左下がやや中華風のような気がしますが、どれを切り出すか否かは各個人の好みですね。
このたった3回の生成だけで12種類の絵が出ています。
そしてそれぞれの絵に対して、主観で「いい感じかどうか?」の判断をいたします。
・ 好みの絵が出たらアップスケールボタンを押して切り出し、好みの絵が出なかったら再生成。
・ プロンプトの改造が必要であれば適宜行う
~というのが私のいつもの流れです。
プロンプトは大切ではありますが、私は「生成した後にどうするのか?」の方が重要だと考えています。
すごいプロンプトを入手しても、生成後の判断は人それぞれですからね。
1回目で完璧なのが出ればよいのですが、それがなかなか出ないのがAIアートというものです。
たとえば今回の絵を私が改造するとしたら、このあと「表情」「人数」「場所」「時間」「画角」「質」「縦横比」なんかを付け加えます。
そしてプロンプトを送信し、生成された絵を見てまた次どうするかを考えます。
というわけで、たとえばこんな感じ。
[close-up, portrait] [kimono girls] [two girls, smile, beach, night, from above, watercolor, by uemura shoen] --v 6.0
![](https://assets.st-note.com/img/1706854232465-f77l5P6igv.png?width=1200)
「さっきと絵柄が変わってる!!」と思うかもしれませんがこれで良いのです。私は素敵な絵が見られればそれでOK。絵柄が変わったってキニシナイ!!
改めて拝見するとnightが反映されていませんが、良い雰囲気の絵が出たので私はご機嫌です。
そうそう、この画像は画像を保存したあとiPhoneのアプリを使って周囲を黒い枠線で囲い、最下部にロゴを入れてあります。
画像左下の落款っぽいものや、右下のサインっぽいものはAIが勝手にそれっぽく描画した意味の無いものなので消した方が良いですね。
では次にuemura shoenを削除してみましょう。
![](https://assets.st-note.com/img/1706854269060-WfBnpqC53c.png?width=1200)
さらに画風が変わりましたね!!今回はnightが反映されてるっぽい。
![](https://assets.st-note.com/img/1706854288095-wqTA4GAuHL.png?width=1200)
「こっちの方がいいんじゃないの?!」と思ったので即・保存。
プロンプトについて解読。
[close-up, portrait] [kimono girls] [two girls, smile, beach, night, from above, watercolor, by uemura shoen] --v 6.0
close-up, portrait : 近距離の上半身
two girls, smile : 二人の少女、笑顔
beach, night : 浜辺、夜
from above : 上から(視点の位置)
watercolor : 水彩画
by uemura shoen : 上村松園(雰囲気)
邦訳するとこのような内容になります。もちろんコレを覚えようとしなくていいんですよ!!こんなの思い付きで付け加えただけですから。文法とか知らないのでいつもこんな感じなのです。
「夜、浜辺」の部分を「昼、遊園地」にしてもOK。お好きな言葉を足したり引いたりしましょう。
細かいことは後回し。とりあえず生成してから「もうちょっとこうなったらいいな」と思った部分だけ付け加えたり、邪魔だと思ったら削除すればOKです。
単語を並べるだけの簡単な方法
繰り返しますが、私はプロンプトの文法とかは一切何も気にせずに生成しています。
単語を並べるのが基本。でもたまに英文も使います。
やり方は簡単。まず日本語で簡潔な短文を書いてから、それを翻訳サイトで変換してコピーします。あとはMidjourneyに戻って貼り付けるだけ。
どんな内容にするかは思い付きでOK!!頭の中のイメージを言語化すれば良いのです。どんな突飛なものでも大丈夫。AIがテキトーに「こんなのどうですか?」という感じで生成してくださいます。
生成後のプロンプトの改造も、英文の文体を変えるとかではなく単語の順番を思い付きで並べ替えたり、追加や削除するだけなことが多いです。
memo : ただ、唯一お手本として採用しているのは "/describe" というコマンドで絵を分析したときに登場する"in the style of"という言葉と、Community Feedで見つけた中括弧 [] による組み方です。
これらについてはまた別のnoteにてご紹介しますが、先ほどのプロンプトがその一例になります。
私の感覚では"in the style of"は"art by"とか"by"だけでも代替出来るような気がしています。使い分けもテキトー。すべては思い付きです。
たとえばプロンプトの冒頭に[art by hokusai]などと入れてみたり、途中に[in the style of impressionism]を放り込んだりすると絵が変わりますよ。
なんなら造語でも構いません。それによって変化するかどうかはAI次第なので、生成された絵を見た後に適宜判断しています。
まとめ
私は単語をテキトーに並べる派
私は「思い付きで単語を並べる」人です。本当にテキトーに並べます。並べ替えもテキトー。基本的にAIまかせなのです。
まず単語の羅列だけを送信して、返って来た絵を見てから修正を加えるという方法で生成しています。
余談ですが、私も最初は「プロンプトですべてをコントロールしよう」としてたんです。でも出来なかった!!なので、ちょっとした調整だけを行うことにしました。
そしてその調整の判断は私の直感で行っています。つまり思い付きです。
そしてこのnoteにはここまでで9回「思い付き」という言葉が出て来ましたが、それはこだわりがないという意味ではありません。
逆に常人の1000倍ぐらいのこだわりでダメ出ししまくっているのが私です。これまで13万枚以上生成して12万枚はボツですから。
私の直感は私からしか出ないものですし、みなさんの直感も、それぞれのみなさんからしか出せません。マネなど不可能!!私はここが重要だと思っています。
同じAIサービスを使っていると、どうしても似たような絵柄になりがちです。もちろんそれがダメだとは言いませんが、特にMidjourneyには「プロンプトを共有してみんなで利用する」という考え方がありますのでその傾向が顕著なのです。
他人のプロンプトをそのまま使うためのメニューが標準で用意されていたり、画像で画像の検索も出来ますからマネがしやすい。
なので「人気のある絵はみんながマネをしてどんどん使って、別のものに応用する」というような文化があるように感じています。(違うのかな?)
そしていまブラウザ版のalpha版が限定版として稼働中ですが、さらに他人のマネをしやすくなっていてビビリます・・・。
ちなみにブラウザ版はDiscordで取られたアンケートを基にして、新しい機能がどんどん実装されたりもしています。
以上、話が飛びまくってしまいましたが「Midjourneyのプロンプトについてご質問をいただきました。その1(実践編)」をお届けしました。
一言でまとめると「楽しんでね!!」という感じ。
そのうち第二弾もやりますよ!!
[おまけ情報] Q : 画像生成系のAIは、プロンプトを文章で組んだ場合と、単語の羅列で組んだ場合とではどちらが生成しやすいのですか?
AIチャットであるBardさんに聞いてみました。
Q : 画像生成系のAIは、プロンプトを文章で組んだ場合と、単語の羅列で組んだ場合とではどちらが生成しやすいのですか?
A : 画像生成系のAIは、プロンプトを文章で組んだ場合の方が、単語の羅列で組んだ場合よりも、生成しやすい傾向にあります。
その理由は、文章には、単語の羅列よりも、画像の構図や雰囲気、意図などを明確に伝えることができるからです。
例えば、文章で「夕暮れの海辺で、波打ち際で遊ぶ犬」とプロンプトを組んだ場合、AIは、夕暮れの空、海、波打ち際、犬などの要素を認識し、それらを組み合わせて、夕暮れの海辺で犬が遊んでいる画像を生成することができます。
一方、単語の羅列で「夕暮れ、海、波打ち際、犬」とプロンプトを組んだ場合、AIは、夕暮れ、海、波打ち際、犬の各単語を認識しますが、それらをどのように組み合わせればよいのかが明確ではありません。そのため、生成される画像は、夕暮れの海辺で犬が遊んでいる画像とは限りません。
もちろん、単語の羅列でも、十分に意図を伝達できる場合もあります。例えば、「夕暮れ、海、波打ち際、犬、遊ぶ」とプロンプトを組んだ場合、AIは、夕暮れの海辺で犬が遊んでいる画像を生成できるでしょう。
しかし、一般的には、文章でプロンプトを組んだ方が、画像生成の精度が高くなると言えます。
また、文章でプロンプトを組む際には、以下のような点に注意すると、より精度の高い画像を生成できるでしょう。
画像の構図や雰囲気などを具体的に伝える
画像に含めたい要素をすべて伝える
余計な情報を入れすぎない
これらの点に注意して、プロンプトを組むことで、より理想的な画像を生成できるでしょう。
この記事が気に入ったらサポートをしてみませんか?