見出し画像

お絵描きAI、Midjourneyの所感

 こんにちは、今回はここ最近で話題のお絵描きAIンついて使用感と展望を少し書いてみようかなと思った。まずはぜんていとしてMidjourneyについて基本ステータスを少々書いてから、使用した所感及び生成絵、展望を書いていこうと思う。

Midjourney

基本ステータス

 「Midjourney」はMidjourney社が開発しているお絵描きAI です。8月1日にベータテストがローンチされて、MidjourneyのDiscordサーバーには入れば無料で25回分使うことができます。Discordの操作方法などについては今回は割愛いたします。

 とりあえず、右も左もわからないので、いろいろ試してみた。まずは無難に「Ruins nestled in the depths of the forest (森の奥にたたずむ廃墟)」というお題で生成。

作品

Ruins nestled in the depths of the forest

 すると4つの画像が返ってくる。この下のU1,U2はその番号(左上からZを各順番で1,2,3,4)のより詳細(高精度)の画像を生成してくれる。さらに下のVはその番号をベースに似た画像を4枚生成してくれる。右のぐるぐるは気に入った画像がないときに再生成できる。どの操作をしても無料25回分内にカウントされるのでガンガン使うとすぐになくなっちゃうのでご注意を。
 生成された画像の所感は、うん、「すげー」の一言に尽きます。ここまで高精度に書いてくれるとは思っていなかった。それではいろいろお題を変えてみていきます。

Soldiers merch through the snow and mud to the palace
(雪と泥濘の残る大地を兵士が宮殿に向かって行進する)

 独ソ戦をイメージした。3番目とか宮殿が赤くてクレムリンを連想させる。2枚目はなんだか雪というよりかは川や霧のようになってしまっている。宮殿は遠目から見るとしっかりしているが、細かく見ると、窓が曲がっていたり、浮いていたりとぱっと見以外は微妙か?

Soldiers merch through the snow and mud to the palace

ここから頭のねじを緩めていこう。

Darth Vader cuts the cake with lightsaber ata the party
(ダースベイダーがパーティー会場でライトセイバーを使いケーキを切る)

 固有名詞も行けるようだ。ベイダー卿のヘルメットが良く表現されている。しかしケーキがベイダー卿と融合しているwww
1枚目は文章全体のイメージをもっともよく反映している。でもベイダー卿の要素が薄い。他3つはぱっと見、ベイダー卿。しかし1秒後にはなんか違うと思うはず。2,3枚目はパーティーの要素が表れている。

Darth Vader cuts the cake with lightsaber ata the party

Bodhisattva statue with 100 hands and 4 faces of anger ,sadness ,love and hate
(怒り、悲しみ、愛、憎みの4つの顔を持つ100本の手の仏陀像)

 千手観音と阿修羅像の融合を期待した。数字は苦手なのだろうか。4つの顔や100本の手といった要素がとてもあいまいになっている。

Bodhisattva statue with 100 hands and 4 faces of anger ,sadness ,love and hate

 では、続いて概念をお題にしてみる。最初は簡単なお題から。

future
(未来)

 AIの考える未来はこのようなものなのだろうか。特に4枚目は空に浮かぶ星が2つある。これは地球じゃない?いろいろ疑問が残る。1枚目以外は人が奥に歩いていく様子が描かれている。光の射す、未来に向かって歩く、その人の後ろには影が落ちている。3枚目はFUTUREの文字が描かれている。お題がそもそも文字なのだから、これはあり得る結果だろう。
 前にDALL-E2を使った確かその時もfutureをお題にして、水色と橙色をベースにした絵が生成されている。

future

relativity theory
(相対性理論)

 1900年代の理論物理学の天才、アルベルト・アインシュタインの提唱した理論をAIは理解しているのだろうか。1~3は座標が意識されているのだろうか、「あらゆる座標系は互いに対等であり、相対的でもある」。これを絵にしたのだろうか。4枚目はなんかうまく説明できないが、空間上の"場"の特異点を表しているのか?いづれにせよAIが相対性理論を理解できているとは思っていない。

relativity theory

 それでは意地悪なお題はやめて、より詳しい状況を書いてもらう。

Hatsune Miku brings flowers to the grave in the garden deep in the forest, high quality, full HD, dystopia
(終末の森の奥で墓に花を手向ける初音ミク)

 おー!すごい!初音ミクだ….?近づいてみると違うな…やっぱ雰囲気だけ初音ミク。初音ミクの重要な要素、青髪、ツインテール、スカート(?)が描かれている。墓要素は少ないか右下の十字架のようなものが見えている。

Hatsune Miku brings flowers to the grave in the garden deep in the forest, high quality, full HD, dystopia

Cyberpunk, Tokyo, back alley, standing girl with AK
(サイバーパンク、東京、路地裏、AKを持った少女)

 看板の文字がぱっと見、漢字になっている。AKはあんまり精度が高くない。3,4枚目の雰囲気がめっちゃ好き。

Cyberpunk, Tokyo, back alley, standing girl with AK

People bow down to the giant statue of Santa Muerte and beg for forgiveness .hell , devil, high quality, skeleton
(人々が巨大なサンタムエルテ像にひれ伏し赦しを乞う)

 メキシコのサンタ・ムエルテ崇拝、人々はなぜ死を崇拝するのだろうか。

People bow down to the giant statue of Santa Muerte and beg for forgiveness .hell , devil, high quality, skeleton

When Moses raised his staff, the sea separated. photorealistic
(モーセが杖を振ると海が割れた)

 旧約聖書、出エジプトより
 海が割れて…いるのか?そしてモーセ要素がない。

When Moses raised his staff, the sea separated. photorealistic

A Sith Lord and a Jedi in a lightsaber battle on a spaceship in 2030 photorealistic 8k —w 1900 —h1080
(近未来、シス卿とジェダイが宇宙船の上でライトセイバーを構えている)

 このように画質や比率を指定できる。
 ライトセイバーの色を指定していないのに、シスのライトセイバーが赤く、ジェダイは青くなっている。

A Sith Lord and a Jedi in a lightsaber battle on a spaceship in 2030 photorealistic 8k —w 1900 —h1080

An exhibition featuring a holographic universe in crystal. photorealistic , high quality —w 1900 —h 1080
(宝石の中に閉じ込められたホログラフィック宇宙)

An exhibition featuring a holographic universe in crystal. photorealistic , high quality —w 1900 —h 1080

Whales and fish swim in a civilized aerial city, futuristic, blue sky, mechanical, steampunk
(高度に栄えた空中都市でクジラや魚が泳ぐ)

Whales and fish swim in a civilized aerial city, futuristic, blue sky, mechanical, steampunk

 まだたくさん作品はあるのですが、全部は多いので今回は気に入ったものだけを載せてみました。Twitterで#midjourneyと検索し、他の方の作品を見てみると面白い作品がたくさん出てきます。テクスチャを生成したり、ボードゲームの説明書など…
 そのうち生成したい絵によって文法や構文などが定まってくるだろうと思う。25回よりさらに使いたいときは月$10のサブすくプランや、より長く使える月$30のプランがあります。最後にお絵描きAIの展望を述べていこうと思う。

自然言語処理と画像生成について

 Midjourneyの機械学習は主に2つの領域に大別される。
 まずは自然言語処理である。
機械は人間の言語をどのように理解しているのだろうか。私たち人間が持つユニークな能力である言語をコンピュータの中で処理するにはとても難しい。そもそも言語自体が離散的なもので、コンピュータには難題である。しかし私たちの言語の単語間にはいくつか特徴がある。例えば「ご飯」と言われたら「食べる」を連想する人が多くいるだろう。それをどのようにつなげるのかが問題であり、「ご飯を食べる」「ご飯食べた?」「ご飯食べれる?(可能)」のようなパターンが思いつく。つまり「ご飯」と「食べる」はとても近い位置にあると理解できる。反対に「月」と「ご飯」はどうだろうこれらを連想させるにはなかなか難しい。お月見くらいだろうか?ともかくこれら二つはとても離れた関係であるとわかる。このように単語同士の関連度を距離と定めると、「食べる」と「ご飯」はとても近い位置おかれる。また「man」「people」や「cat」「cats」などのように同じ変形をする単語同士はベクトルの向きを同じにする。このように2次元に表すことができる。このように、離散的なものから連続的なものに近づけることで数値に変換している。
 続いて画像生成の部分。
これはCNNを用いて、入力ノイズから画像を生成するというやり方である。自然言語処理で出力された数値をベースに画像を生成する。この部分がかなりの曲者で、途中の層で何が行われているかを知るのが難しい。仮に途中の層を取り出しても、それはただの数値の並びであり(画像もRGBαの数値の並びだが私たちがそれを理解できるのは、それが"意味のある"数列だから)、私たちがそれを見ても何もわからないだろう。これを理解することができるもしくは意味を持たせ理解可能な特徴を発見できれば、CNNのブラックボックス化問題を解決できるだろう。この分野の研究がより発展すると高精度な画像が生み出されることに期待している。

Midjourneyはアーティストの仕事を奪うのか

写真の登場

「車が登場したとき、馬は絶滅することはなかった。」
 この言葉にすべての答えが詰め込まれている、と考えている。つまり、淘汰されそうな職業は場所や空間を変えて新たに発展する(競馬など)。
 少しわかりづらいので近い例を出す。アーティストにとって、被写体を事実そのまま、リアルに書き写す(創り出す)というのは非常に大切な役目だった。人間の筋肉や海洋生物の模型、薄い布がかかったかのような石像のようにリアルに表現することはとても大事でそれ自体が ”価値” であった。そこに新しい風が吹き込んだ。それは写真の登場だった。一瞬で目に映る情景をリアルに切り取ることができる、夢のような機械だった。おそらくそのころの画家は「自分たちの仕事がなくなる」と嘆いただろう。しかし実際、人間はそのようにならなかった。確かに一部の画家は廃業に追い込まれたりする例もあったと思う。写真を自身の作品に取り入れた人もいる。それだけでなく、世の中にないものを創造し書き始めた人もいる。中にはよりリアルを追求しまるで本物がそこにあると思わせるような絵を描く人もいる。

アントニオ・コラディーニ作「ヴェールに包まれた謙遜」

価値

 そもそも芸術の価値はどのようにして決まるのだろう。主が書いた絵とゴッホの星月夜の違いは何だろう。それはの経歴と経験であると思う。作品に価値がつくのはオークションなどの価値がつけられる場所に並んだときである考える。そこで主のteftefとゴッホの名前を出したときに言うまでもなくゴッホに大きな価値が付くだろう。つまり誰がこの絵を描いたのかというのは非常に重要な要素である。また近年、「信頼性」というものに価値が付くようになった。例えばThe most famous artistのモノリスはその作品にブロックチェーンで管理された証明書が付く。これはその作品が偽物でないことを保証する。このように価値の基準が変わってきたのである。

これから

 価値がシフトしたのだ。今まで物をリアルに書き写すことが大きな価値基準であったが、写真が登場して以来、リアルに書き写す価値基準が上がり、トップ層(高精度な作品)に対してつくようになった。そのほかには創造性に価値がシフトした。私たちがAIどのように向き合っていくべきだろうか。AIなんかに頼らず人間の創造こそに価値があると考える人も、逆にAIをいち早く取り入れて共存(相利共生のほうが近いか)していく人もいるだろう。主が思うに、前者は非常に苦しい道ではないかと思われる。しかしAIには絶対にできない領域で才能を開花させることができれば、大きなリターンが得られるのではないだろうか。後者は法律や規制が整うまで少し時間がかかり、面倒ごとに巻き込まれる可能性がある(AIが描いた絵の著作権など)。どちらにせよ、主は後者よりの考えをする。新しいものを否定するのではなく、共存という道を進むほうがワクワクするからである。AIが発展する未来でうまくAIを使い、共存するのか、それともあえてそれに異を唱えるのか、どちらが正解かわからないが、今のうちに明確な考えを持っておくのは非常に重要なことであると考えている。
(teftef)

この記事が気に入ったらサポートをしてみませんか?