見出し画像

(反)Midjourney入門


はじめに

 
みなさん、MidjourneyでAIお絵描きを楽しんでいますか?

 えっ?

「慣れてくるほどpromptを書くのが難しい」?
「なんだか似たり寄ったりでヌルヌルした絵になってしまう」?
「そもそも飽きてきちゃった」?

確かに!急速にTipsが積み上がる一方、

「色々試したけどイメージと違う」
「promptの英文を書くのがおっくう」
「出力される絵は安定してきたけどあんまり面白くない」

といったふうに、カジュアルな利用から一歩だけ踏み出したとたん、壁を感じてしまうことがあるかも知れません。

ここでは短いながらも集中講座的に、絵画表現に重きを置いた内容ではありますが、より気軽に深くMidjourneyを楽しめるようになる(かも知れない)アイディアをお伝えしたいと思います。いくつかの章立てではありますが、伝えたいことはかなりシンプルです。

では前置きはここまで、早速始めていきましょう!


*文中で取り扱っている手法や画像は、アーティストの指定を含めてMidjourneyのマニュアルおよびガイドラインに沿うように配慮しましたが、運営企業の方針および法律を含む将来的なアップデートによっては逐次変更・削除する可能性があります。またここで紹介した内容を適用した結果生まれたあらゆる画像や二次的影響について、筆者は一切の責任を負いません。あらかじめご了承ください。


第一章・セオリーを捨てよ


アイディアを伝えると言いながら、いきなり捨てることから始まるので面食らうかも知れません。でもちょっとだけ考えてみてください。Midjourneyのセオリーとは一体なんでしょう?

ここでの正解は「画像を出力するために必要なpromptは文章(英文)による指示でなければならない」です。

ではそれを捨てるとは?

実はpromptにおける作画指示は文章である必要はありません。単語の羅列でも十分に機能するのです。

そのうえ、複雑な情景に複雑な単語の組み合わせは必ずしも必要ではありません。少し後で扱いますが、たった数語で見事な一幅を描き出すことさえ可能なのです。

そんなことが可能なの?華々しく作例をあげて説明しているnoteを読んだけど、情景を説明する文章も長かったし、パラメーターも込み入ってたけど?

次の画像を見てください。一体どんなPromptでこれが出力できるのでしょうか?

実際のpromptはこちらです。

landscape, golden dawn, hidden faith, alfons mucha, black, gold, white, silver, red, blue, shining, darkness, wide-angle, --w 3840 --h 2160 --s 5000 --q 2

予想したような記述だったでしょうか。

prompt自体は一見複雑なように見えて、一つ一つがそっけなく、本当に単語の寄せ集めで画像が生成されていることが分かると思います。

これを踏まえて最初の問いかけに戻ってみると、多くの利用者が「文章でAIに指示・説明する」という発想(あえてドグマと言い換えても良いかも知れません)にとらわれ過ぎていることが分かります。

実際、Discord上のMidjourneyコミュニティにはpormpt記述についてのスレッドがいくつもありますし、状況設定をどうやって解釈・成立させるかのチャレンジの場所にもなっています。何よりMidjourneyが用意したマニュアルでもさまざまな手法が推奨されているのです。素直に従わない手はありません。

Tips for Text-Prompts

しかし「情景が目に浮かぶような文章を打ち込むと、実際にMidjourneyがそれを描き出してくれる」ある側面ではそうでしょうが、ある側面ではうまく機能しているとは言い難い…というのが筆者の意見です。

ではどうしたらいいのでしょう?それを次の章で説明してみましょう。


第二章・不如意の如意


ますます怪しげな雰囲気になってきました。が、この文書自体の最終的な目的地は複雑さからの解放である、ということは前もってお伝えできます。

繰り返しにはなりますが、「情景が目に浮かぶような文章を打ち込むと、実際にMidjourneyがそれを描き出してくれる」というpromptの記述作業は、続けるうちに迷走しがちです。ポーズやオブジェクトの指定、仰々しい修飾、細かな画質の指定 etc. etc.

短期間で積み上がった”理想の出力を得るために付け加えるべきパラメータ”とされる物の多さに、鼻白んでいる利用者もいるかも知れません。

しかもここまで手を尽くしても、出力される画像は平均顔のようなぼんやりしたものか、縮尺の奇妙なコラージュ、あるいはHDDの奥底から発掘されたエクセルのクリップアートのようなものばかり。

では、例としてこれはどうでしょう。

遺跡とジャングル、急変する天候を切り取った、非常に手慣れた筆致と画面構成のように見えますね。

しかし種明かしをすると、この画像のpromptはこちらです。

aztec, jungle, Ludwig Deutsch, shine, dark --s 5000 --q 2

今まであんなに書き込んでいたのはなんだったんだ???と衝撃を受けたかも知れません。一体何が起きているのでしょうか。

もう一枚見てみましょう。

orient, ruin, Ludwig deutsch, shine, dark, wide-angle --s 5000 --q 2


これが可能なら、そもそもpromptの煩雑さとは?

結論から言ってしまうと、「コントロールすることをやめましょう」ということに尽きます。

MidjourneyのAI(便宜上人工知能とされる機械学習による一連の画像出力プログラム)が学んでいるとされる過去、そして現在の偉大な巨匠・アーティストたちの作品は、それが記録され、最終的にネット上で閲覧できる形で保管されているがゆえに(ここが重要です)それぞれ完璧な技法や独特の風格、洗練された構図をあらかじめ備えているものとみなします。そのうえ、たっぷりと人類に言及されたそれ自体に関する膨大な文章や引用と結びついています。いわばpromptに文字が打ち込まれ、botに送信されるまでの間、解き放たれるのを待っている凍りついた画家たちの記憶と技術です。

もっと短くいうと、ごちゃごちゃと手を加えるまでもない”正解”がたくさん用意されている状態なのです(これが非常に暴力的な解釈であることは理解したうえで、あえてこの表現を使わせてください)。偉大であることがあらかじめ解っている画家に「非常によく描けている絵を」と依頼することがどれほどナンセンスか考えれば、長く曲がりくねった描写や、そこから派生したパラメータが本質的には必要ないことが分かります。

あなたに必要なのは、その情景を言い当てるような、ごく抽象的な単語(公式マニュアルでは喚起力のある言葉を使ってみましょうと提案されていますが)と、それを描くにふさわしいと思えるアーティストを思い浮かべること。そして出力結果から意思を持った人間として一枚を選ぶ。たったこれだけです。

これは何も妄想ではありません。実際のところ、うまく機能するからです(今のところは)。

「どうしてもライトセーバーを持ったC-3POが銀河皇帝を薙ぎ倒しているところが描きたいんだ!」確かにそれは見てみたいですし、挑戦しがいのあるテーマではありますが、現在のMidjourneyが得意とする出力傾向では辿り着く前に飽きてしまうかも知れません。なのであえて今・ここでは扱いません。

コントロールすることを手放すことで、想像もしていなかった真に必要な出力を得るという発想です。

二章目にして思いがけず長くなってしまいましたが、次の章ではいよいよ実践に移りましょう。でも必要なことは依然それほど多くはありません。


第三章・短く、シンプルに


前二章が精神論のようなものに踏み込みつつあったので、この章では最初から出力例とその意味(推論)だけを述べていきます。これだけでうまくいくのです、今のところは。

重箱の隅をつつくような話ではありますが、特定の画家を指定する場合、マニュアルにある 〇〇 by 〇〇 といった記述形式に準拠する必要はありません。ただ名前だけ打ち込みましょう。加えて大文字と小文字の区別もありません。

あれ?これって結局、公式のマニュアルでもあらかじめ示されている内容の後追いじゃないか?と思われるかも知れません。確かにある意味ではそうですが、ここまでの紙幅は、基本的なマニュアルで示唆されている明快さや簡潔さを欠いたTipsがあまりにも氾濫し過ぎている現況を解きほぐす意味もあったのです。ではそれを踏まえて、これはどうでしょうか?

古い絵はがきのような街の風景ですね。水路に囲まれた19世紀のニューヨークのようでもありますが、どこか理想化されたような異国情緒もあります。もちろん実際の風景ではありません。promptを見てみましょう。

orient, new york, egypt, city, Ludwig Deutsch, shine, dark, wide-angle, bird's-eye view --w 3840 --h 2160 --s 5000 --q 2

ここが画像生成の面白いところですが、充分に人口に膾炙したキャラクター性を備えたものであれば、それがどんな姿かを詳細に説明する手順は必要ないのです。この発想を推し進めるとどうなるでしょうか。

こちらはどうでしょう。サイバーパンク的な(卑近な例でいえば実写化された『攻殻機動隊』のような)街並みが広がっています。

promptはこちらです。

orient, hong-kong, taiwan, japan, city, Ludwig Deutsch, shine, dark, wide-angle, bird's-eye view --w 3840 --h 2160 --s 5000 --q 2

もはやサイバーパンクという言葉から連想されるネオン、雨に濡れた夜景を説明するような単語すら含まれていませんし、「写真的」や「高解像度」などといった修飾も必要ありません。しかし含まれている都市の傾向から、何を意図しているかは明らかですよね(後述しますが、頻出する shine, dark については、何にでも合う調味料のようなものと考えてください)。

これを意識して活用すれば、主題を明確にしつつ説明の複雑さを避け、なおかつバランスよく複数の要素を混在できる可能性が高まります。…これは全く公式マニュアルで謳われている事そのままです!

ここで間違えないでほしいのは、高解像度や詳細に描き込まれているからといって、それが主観的な「良さ」に直結するとは限らないということです。

では、それを実現している複数のアーティストの風格を併せ持った「作品」を見てみましょう。

triumphant return, crusaders, Kaulbach, alfons mucha, monet, landscape, gold , black, white, red, blue, silver, shining, wide-angle, --w 3840 --h 2160 --s 5000 --q 2

promptで示されている通り、ミュシャの色彩、カウルバッハの画面構成、モネの筆致を併せ持ち、非常にドラマチックで喚起力のある一幅に仕上がっていますね。大胆に置かれた筆は一つ一つが大きな効果を生んでいます。

色の指定もまた重要です。ここまでの作例ではずっと説明されずにきた色の指定ですが、アーティストとの組み合わせによっては百の語を費やすより出力結果に影響を及ぼします。

例えば、ミュシャの作品における金色の重要度と言及の影響は、この講座の最初で示された作品にも生かされています。

landscape, golden dawn, hidden faith, alfons mucha, black, gold, white, silver, red, blue, shining, darkness, wide-angle, --w 3840 --h 2160 --s 5000 --q 2

色は指定されていても、情景を表すものではない点に注目してください。しかし全体として非常に深い効果をあげています。またミュシャと風景画の印象は薄いかも知れませんが、後年の『スラヴ叙事詩』に見られるような大画面における群衆や建築物、自然描写の達成は見事なものです。

さらにはこんなことも可能です。

starry night, cumulonimbus, landscape, alfons mucha, black, gold, white, silver, red, blue, shining, darkness, wide-angle, --w 3840 --h 2160 --s 5000 --q 2

ここでも画面全体のコントロールを手放しつつ、特徴的な要素を加えれば、色がアーティストのセンスによって適切に用いられている出力が得られます。

余談ですが、ミュシャはそのグラフィカルな画面構成力と、現在でいうSNS上の神絵師的なビビッドな要素を融合させた風格で後世に多大な影響を与えた結果、あらゆる言及や引用、オマージュがなされており、それが多様な接続を生み出し、Midjourneyのような画像生成サービスではほぼ万能と言っても良いくらい効果的に作用していると推測できます。良い引用は良い循環を作るのです。

逆に「AAAゲームタイトルはウェブ上に大量のデータがあるので参照元として優れている」といった発想は浅慮かも知れません。その画像や言及は全てプレイ画面の見事さやアートスタイルを考察するものでしょうか?その多くは攻略サイトであり、プレイ動画であり、これまでに積み上がったアーティストに対する知見と即時に比肩するものではないでしょう。

テイストと構成力がマッチするアーティスト同士なら、その時代には存在しなかった色味をうまく調和させることさえ可能です。例えばシド・ミードと過去の巨匠たちの組み合わせは探求しがいのあるテーマでしょう。

dance, hidden faith, alfons mucha, Henri Regnault, syd mead, white, black, gold, blue, red, laser beam, shining, wide-angle, --w 3840 --h 2160 --s 5000 --q 2
dance, hidden faith, alfons mucha, Henri Regnault, syd mead, white, black, gold, blue, red, laser beam, shining, wide-angle, --w 3840 --h 2160 --s 5000 --q 2


第四章・解き放つ


さて、ここまで簡潔な手法だけで、豊かな可能性が広がることが理解していただけたでしょうか。もちろん、より手法が研究されれば、おそらく将来的にはアーティストの風格を最大限に活かしながら、より正確に意図した通りの画面構成の出力を得られるようになるでしょう(事実成功しつつある部分もあります)。しかし研究が成り立つ前にモチベーションが尽きてしまうかも知れません。そうなる前に、発想を解き放ってあらゆる組み合わせを探るべきでしょう(ただし、許されている範囲内ではありますが)。理想に近づくために、より多くの発想を出力に結びつけてその時点で最良と思えるものを選ぶという方針です。

ここからは、さらに複雑で予想もつかない出力結果も併せて見ていきましょう。

hidden faith, Henri Regnault, alien gods, ruins, white, black, gold, silver, shining, expolsion --w 3840 --h 2160 --s 5000 --q 2

Henri Regnaultは異星人を描いたことはありませんが、Midjourneyならそれも可能です。この講座の最初から登場している hidden faith という抽象的な単語や、色の指定、 explosion といった一見共存できなさそうな要素が劇的に融合していますね。

japan, shrine, hidden, ruins, alfons mucha, syd mead, Henri Regnault, white, red, silver, gold, black, wide-angle, --w 3840 --h 2160 --s 5000 --q 2

色と単語の組み合わせによっては、おそらくは写真アーカイブから学習されたような画面構成を作り出すことも可能です。ここには 英語圏における orient やjapan といった単語に対するバイアスが含まれている影響も無視できませんが、ホビーとしての画像出力では非常に魅力的であることは否めないでしょう。

orient, warrior, full body, Ludwig Deutsch, shine, dark, wide-angle, --w 3840 --h 2160 --s 5000 --q 2

被写界深度や白黒写真といった指定がなくても、組み合わせさえ知っていれば、こんな奇妙な世界観を垣間見る事もできます。

tokusatsu, ninja, samurai, posing members, Ludwig Deutsch, gold, red, shine, dark, wide-angle, --w 3840 --h 2160 --s 5000 --q 2

red や gold といった色の指定が、単語に紐づけられてどう変化するかにも注目してみてください。この出力では(その世界観の奇妙さももちろんですが)屏風や蒔絵といった質感を引き出しています。


pond, flow, meadow, Claude Monet, blue, gold, green, white, black, shine, dark, wide-angle, --w 3840 --h 2160 --s 5000 --q 2

ごく自然で写実的な、しかし明らかに絵画と分かる表現も、必要最低限の記述で済みます。多くの場合、shine や dark といった抽象的な単語は、そのアーティストの風格を壊さず、画面に照明効果や奥行きを加えることができます。gold の効果も言わずもがなです。

ここまでの出力結果を更に注意ぶかく追っていくと、コントロールを手放すといいつつ、ある特定の指定や単語はうまく機能していることも同時に理解していただけるでしょう。 full body や posing members,  wide-angle やbird'seye-view といったものがそれに当たります。


おわりに

最後は駆け足気味でしたが、(筆者がある程度明るい分野の)絵画表現に重きをおいた今回のような作例でも、ここまで可能性が残っていることが少しでも伝わり、それがより新しい表現に結びつけば幸いです。もちろん世界には素晴らしいアーティストがまだまだ存在していますし、ガイドラインや法律は変化していくでしょうが、新しい生成アートの可能性は始まったばかりです。これを機会に現実の美術館を訪ねるきっかけにもなればいいな…と願いつつ、筆を置きたいと思います。ここまでお読みいただき、ありがとうございました。


追補ギャラリー

あえてpromptを記載していません。どうすればこれが可能になるか想像してみましょう。


この記事が気に入ったらサポートをしてみませんか?