見出し画像

Stable Diffusionはデヴィッド・リンチの夢を見るか?

こんにちは、チェ・ブンブンです。

Midjourneyに引き続き、AI描画ツールが公開された。今回公開されたStable Diffusionはオープンソースのものとなっており、今後アプリに実装される見込みである。

がっつりプログラミングを行うとなると、環境構築が面倒臭いのですが、Google Colabを使えば環境構築不要でAIに画像生成させることができる。Midjourneyは無料で画像生成できる枚数に制限があるのだが、Stable Diffusionは無料で使えるそうなので使ってみた。なお、どのように使用するかはエンジニア系のブロガーの方々が既に描かれているのでそちらにお任せします。私が参考にしたのは下記の記事です。

1.ピーナッツくん「グミ超うめぇ」の歌詞を再現させてみた。

Google Colabでの設定を終え、最初に何を描かせようかと考えてみた。ふと音楽の歌詞を再現させてみるのはどうかと思い立った。そして、VTuberピーナッツくんがグミの美味しさを歌った「グミ超うめぇ」に決めた。

本楽曲の中で興味深い歌詞がある。

「最後の晩餐もグミ食べたの誰かで揉めているキリスト」

ピーナッツくん「グミ超うめぇ」より引用

印象的なこの歌詞を描かせてみることにした。

Wikipediaより引用

まず、歌詞を分析する。「最後の晩餐」といえばレオナルド・ダ・ヴィンチの作品を思い浮かべる。中心にいるイエス・キリストは誰と揉めているのだろうか?右側に指を突き出している使徒がいる。調べてみると使徒トマス(Thomas the Apostle)とのこと。

分解すると以下の項目に分けることができる。

  1. In L'Ultima Cena by Leonardo da Vinci
    -レオナルド・ダ・ヴィンチの「最後の晩餐」

  2. "Who ate the gummy bears?"
    -グミを誰が食べたのか?

  3. Jesus Christ argues with Thomas the Apostle.
    -(使徒トマス)と口論しているイエス・キリスト

それでは生成してみましょう。

作成者:che bunbun with Stable Diffusion

AIはこの命令を次のように解釈したと考えられる。

「最後の晩餐」→イエス・キリストを含む使徒を何名か描画する。

「グミを誰が食べたのか?」→使徒トマスにグミを持っているような仕草をさせることで表現。

(使徒トマス)と口論しているイエス・キリスト→グミを求める必死さを表現するため、ひざまづいている。彼の手もどこかグミを持つ仕草を感じる。立つトマス、ひざまづくキリストの構図でもって口論によるパワーバランスを表現しているように見える。

次にデヴィッド・リンチテイストの画を生成してみましょう。

2.Stable Diffusionはデヴィッド・リンチの夢を見るか?

作成者:che bunbun with Stable Diffusion

今回のお題は、「デヴィッド・リンチが撮る東京」です。7度目の描画で上記のような画を生成することができました。

プロンプト(命令文)に書き込む内容のヒントとして深津貴之氏が記事を出されていました。

<全体フォーマット>Detailing oil painting of
<主題>The great white castle on deep forest landscape
<英霊>by CASPAR DAVID FRIEDRICH and CLAUDE LORRAIN,
<全体の補足> perfect lighting, golden hour,
<フレーバー> taken with Canon 5D Mk4

「魔術として理解するお絵描きAI講座」より引用
作成者:che bunbun with Stable Diffusion

プロンプト:
<全体フォーマット>Detailing cinematography of
<主題>Tokyo without people
<英霊>by David Lynch
<全体の補足> perfect lighting,
<フレーバー>IMAX

がらんとした空間に、人のような影があり、それは建物の中へと吸い込まれそうだ。観客は主人公と共に危ないと感じつつと、その影に導かれていく様をAIは表現しました。漢字のネオンが読めそうで読めないところが不気味で良いですね。ただ、この画を魅せて「デヴィッド・リンチみたいだ」という言葉は引き出せそうにありません。

作成者:che bunbun with Stable Diffusion

プロンプト:
<全体フォーマット>Detailing cinematography of
<主題>Tokyo without people
<英霊>by David Lynch
<全体の補足> perfect lighting,
<フレーバー>taken with Canon 5D Mk4

撮影スタイルを変更したらどうだろうか?〈フレーバー〉を深津貴之氏が例として挙げていた"taken with Canon 5D Mk4"にしてみた。すると、明け方の東京が出てきました。ただ、明らかにデヴィッド・リンチ色は消え失せており、サカナクションの「モノクロトーキョー」のような世界観になっていました。

作成者:che bunbun with Stable Diffusion

プロンプト:
<全体フォーマット>Detailing cinematography of
<主題>Tokyo without people
<英霊>by David Lynch
<全体の補足>monochrome,
<フレーバー>taken with Canon 5D Mk4

白黒の方が、デヴィッド・リンチ感出せるのかと思い、<全体の補足>を"perfect lighting,"から"monochrome,"へ変更しました。

すると、デヴィッド・リンチ的な妙に遠い距離感を生み出すことができました。AIに言わせれば「人のいない」を表現するために、人影を配置するのが粋らしい。

作成者:che bunbun with Stable Diffusion

プロンプト:
<全体フォーマット>Detailing cinematography of
<主題>Tokyo without people
<英霊>by David Lynch and Edward Hopper
<全体の補足>monochrome,
<フレーバー>taken with IMAX

<フレーバー>をIMAXに戻してみました。うーん演歌のビジュアルっぽくなった。デヴィッド・リンチから遠ざかってしまった。

作成者:che bunbun with Stable Diffusion

プロンプト:
<全体フォーマット>Detailing cinematography of
<主題>Tokyo without people
<英霊>by David Lynch and Edward Hopper
<全体の補足>monochrome,
<フレーバー>taken with IMAX

デヴィッド・リンチはエドワード・ホッパーに影響受けているとのことだったので、<英霊>を"by David Lynch and Edward Hopper"に変更し、共同制作させてみた。だいぶいい感じになってきたんじゃないだろうか?

作成者:che bunbun with Stable Diffusion

プロンプト:
<全体フォーマット>Detailing angle lens of
<主題>A woman approaches the door in the Tokyo’s Red room
<英霊>by David Lynch and Edward Hopper
<全体の補足>perfect lighting
<フレーバー>taken with IMAX

<全体フォーマット>で"cinematography(映画撮影)"を指定し、<フレーバー>で"taken with IMAX"することは指示の重複に当たるのではないだろうか?

<全体フォーマット>では別の観点を入れた方が良いと考え、"angle lens(広角レンズ)"を採用した。またデヴィッド・リンチ感を与えるには、『ツイン・ピークス』のイメージを採用すると良さそうだったので、<主題>を"A woman approaches the door in the Tokyo’s Red room(東京の赤い部屋の中で女性が扉へ近づく)"にした。

味わい深いが、なんか違う…

作成者:che bunbun with Stable Diffusion

プロンプト:
<全体フォーマット>Detailing angle lens of
<主題>A woman approaches the door in the Tokyo’s Red room
<英霊>by David Lynch
<全体の補足>perfect lighting
<フレーバー>taken with IMAX

エドワード・ホッパーの作風が邪魔しているのでは?と除いてみた。そうしたら完成度の高い画が完成した。東京要素は、どこか日本の80~90年代ファッションっぽい女性の姿に集約させている(ちょっと無理筋?)って感じだが、この画を観たら、一目で「デヴィッド・リンチだ!」となるだろう。

3.□の背景に○を描かせる難しさ。

AI描画が普及すると、プログラミングの教科書のように正しい命令の出し方が体系的にまとめられてくるだろう。そうなった時にどんな課題が出されるのか?想像してみた。シンプルな構図を作る難しさを教えるところから始まるのではないだろうか?例えば、映画『Lucifer(2014)』や『わたしは潘金蓮じゃないのような四角い画の中心に丸画面を配置し、その中に情景を捉える。これをAIに命令させることができるのだろうか?こういった、画のフレームワークを蓄積した本は今後需要が出てくるだろう。

今回は四角い画の中心に丸画面を描かせてみることにした。とても難しかったです。

作成者:che bunbun with Stable Diffusion

シンプルに"White circle on black background"と命令してみた。すると、黒い背景に確かに白円は配置されたが、思ったのと異なるものが生成された。

作成者:che bunbun with Stable Diffusion

映画用語で「アイリスイン(Iris-in)」がある。円形の画を作る専門用語を使うことで描画してくれるのではないだろうか?

"Iris-in on black background"と命令してみたところ、AIはアイリスインを知らなかったようで、アイリス(=アヤメ)を描いてしまいました。

AIに正確に描かせるには、一意に紐づく専門用語や作品名を持ってくる必要がある。「アイリス・イン」は「アイリス」してしまったので、他の専門用語を探すことにした。今回は、「世界の美術」を使って理想の構図を探した。

その結果、ケネス・ノーランドの作品「ハーフ」を使うことで実装できそうだと思った。

ケネス・ノーランド「ハーフ」("https://emuseum.mfah.org/objects/1733/half"より引用)

プロンプトに"White circle on black background styled of Kenneth Noland Half"と打ち込んでみた。

作成者:che bunbun with Stable Diffusion

いかがでしょうか?見事、四角の画の中心に円を描くことができました。これを応用することで、四角の画の中心にひとつの丸を生成させることができ、その構図を基にした画を描かせることができるのではないだろうか?

今回はここまでとします。

また遊んでみよう♪

映画ブログ『チェ・ブンブンのティーマ』の管理人です。よろしければサポートよろしくお願いします。謎の映画探しの資金として活用させていただきます。