見出し画像

人工知能とともに絵を描くという行為が人類にどんな影響を与えているか?(2)人類は働きたいか。自分で描きたいか。

前編はこちら。全編は技術書典13にて9/10公開予定です

人類は働きたいか。自分で描きたいか。

Stable Diffisuionで描いた絵をpixivにアップロードした瞬間に画風を見抜いておすすめタグを提案してくるんだけど、潜在変数とエンコーダとデコーダーの合間で絵を描いている感はんぱない。

エンコーダーとかデコーダーとか、潜在変数が何かについては、このブログで簡単に解説を書いておくからさらっと読んでおいてほしい(論文については技術書の方で初心者向け優しい解説を書いています)。

AI画像生成を叩く前に

AIを叩く前に
世の人類の不勉強な案件を叩く方が
人類は前に進むと思うのだけど

なかなかそうはならない人類むずい

AI画像生成を叩く人にはいろんな思いがあるのだと思います。
絵描きの人というよりは絵描きのファンの人が多い印象です。

(法的な論争はまたの機会に書きます、たぶんパート3…)


本稿を書いているこの2022年8月末のこの時点で明言しておきたいことは、DALL-E の登場以前は、「コンピュータが描いた絵」に人々は驚きこそすれど、人気になったり、親しみを得たり、もしくはそこに熱狂してお金を投じたりといった対象ではなかったかもしれない世の中だった、という点を最初に指摘しておきます。

簡単に描けることは悪なのか

例えば油彩の場合は、絵の具自体の立体感ありますもんね。
AIのプロンプトで書けても、そう簡単に描けるものではない…です。

『簡単に描ける』というのは、描いている様子を見た人の印象ではないでしょうか。その背景には描けるようになる技術の積み上げや、その描き手の人格、経験があります。
ピカソは「30秒と30年」と言っている(別バージョンもある)。
「ドラゴンクエスト」シリーズの楽曲を作った作曲家すぎやまこういち先生は5分と54年と言っている
簡単に描けた、だからといって価値がないとか意味がないとか、人間を冒涜しているという考えに及ぶのはちょっと乱暴です。35億の画像を学習させること作業は並大抵ではありません。StableDiffusionは美学を学んでいます

人類は働きたいのか?頑張りたいのか?そもそも頑張るってなんなのか?
人間は「苦労したい」のか?というとそうでもないのではないでしょうか。

絵描きの場合、デッサンや画材の扱い、細かな作業、品質の維持、依頼主との対話などなど、「商品性が高く、いい絵を作る人」には経験や想像力、実行力、胆力などさまざまなエフォートが必要です。
それは「絵具を無駄にすること」ではないはずです。手法が目的に勝ってしまう美術も時にはあります。自由な表現の場合には目的がない、もしくは見えない場合も多いです。しかし、多くの場合は「ねらい」や「コンセプト」があって、手法や機能がメソッドとして存在して、それを使いこなしてグラフィックとして出力する必要があります。

フォトグラファーから見るAI画像生成

自分は写真の出身なのですが、写真を撮るとき、本当に運が良くて、とてもいい表情が撮影できるときがあります。
ラッキーショットというやつです。
初心者がとてもいいスナップ写真を撮ることもあります。

(筆者が19歳の時に制作したセルフポートレート作品です)
自分で撮った、と思わせないような複雑な表情が撮影できています。これはとても難しい手法を使って、さらに暗室でも特殊な技法を使って焼き、さらにセピア調色まで加えた手の込んだ大型作品になっています。

もちろん狙って撮れれば嬉しいのですが、実際、ポートレートの場合、人間の顔の表情というものはとても細かい速度で動いており、またその角度やカメラのレンズとの方向、ライティングなどの条件で大きく印象が変わります。
なので本気で表情を狙うときは、表情に合わせてシャッターを切るのではなく、連続撮影をして、その中から自分の表現に近い「おもしろい表情」を探して作品として世に出します。もちろん、瞬きの瞬間の半目閉じとか白目とか、ひどい絵もあるのですが、そういう画像は世に出てこないので、一般の方々(=プロではない方々)が気づかないだけです。プロとはそういうプロフェッション、専門性から依頼されて「それ」をやるのです。
プロであろうとアマチュアであろうと、上記のアナログ写真のように、三脚を立てて、フィルムで撮影し、現像してみるまで画がわからないような撮影方式の場合は完全に運です。もちろんプロの俳優さんならいろんな顔芸や表情は作ってくれますが、それでも「監督が言葉で伝えて作ってくれる表情」には限界があります。プロならば何でもできる、という事でもないのです。意図が短い時間でくみ取れるチームだからできるプロダクション、ということもこの世界には多くあります。

AIによる画像生成も似たところがあります。DALL-E、StableDiffusionやMidJourneyなどの人気のAI画像生成は言語から画像を生成します。StableDiffusionは潜在変数を経由して超解像技術によって解像度を上げていく過程にその潜在変数に近づけていく工程を取ります。これらの画像は(ちょっと驚きなのですが)もともとガウスノイズの塊です。虹色のノイズの塊である画像のタネが、人間が与えた言葉の意味に近づけて近づけて…を1ピクセル1ピクセル丁寧に、ノイズを取り除いていくとあのような画像になるのです(ノイズ除去拡散確率モデル条件付き画像生成;DDPMといいます)。一つ一つの処理工程は小さな役割の繰り返しであり、アルゴリズムに基づくもので、乱数であったとしても再現性がある関数にすぎません。

画像の研究者から見たAI画像生成とAI企業の善悪

Stable Diffusion というアルゴリズムや関連のサービスについて、簡単に解説しておきます。まずこの「AIが文章から画像を生成する」という課題、技術の思想はDALL-Eを産んだOpenAIが「企業の独占ではなく」という立ち位置で生まれていることからも「狙った課題」であります。AI開発企業がとある単一目的のために単一企業の独占でAIを開発すると、人類から反発されます。具体的にはコンペチターとなる企業からも反発されます。その技術を独占する事自体が悪になるからです。そして、賢い投資家たちは「一見、単一企業が目的達成のためのAIを開発するのではなく、人類のためになるAIを作ろう」という目的でOpenAIを作ります。そしてこれからも「人類が脳汁を発したり、お金を出してでも手に入れたいと思うもの」に対して投資行動をしていくと思います。規模の大小はわかりませんが、これからもAI画像生成技術には一定の注目があると思います。
StableDiffusionを成立させる要素技術であるCLIP や GLIDE そして 超解像技術を用いたDDPM。その潜在変数に、文字列から表現できる潜在変数の組み合わせが、プロンプトであり、エンジニアリング要素でもあります。これを「プロンプトエンジニアリング」と呼びます。
もちろん改善手法で word2vec や 領域指定、img2img など、新しい方法、特に従来の文字で入力する言語以外の方法はたくさん出てくると思います。Stable Diffusion にはDALL-E2にあったような「任意の場所を描きなおす」というプロセスはないようです。実際に、これらの絵作り工程では、ポージングやレイアウトを直接指定したいことはたくさんありますし、いちばん難しいところは「指と顔の表情」の指定です。顔は記号的な表現でよければワードで指定できるとは思います。でも絵画で表現したいような複雑な表情は難しいですし、これを言語で表せるならそれこそ絵画の終わりを感じる気もします。またアニメーションで表現したい動的な表情変化、表演技に特化した対話的なUIなどもあるかなと思います。この辺はCGxAI分野の研究者のネタでしかないので、学会などでお話しできればなと思います。
逆を言えば、潜在変数の組み合わせをどのように詠唱させたか?という点では、実際の絵のデッサンでいえば、エンピツの削り方、その鉛筆を制御する筋肉の鍛え方、光の捉え方、面や空間の捉え方…そしてデジタルイラストレーションでいえば、構図、彩色、表情などに現れてきます。どれだけ多くのスタイルを知っているか?これは美術史なり、美術書なりを読んでいる人のほうが有利です。日本語ではなく英語で指定したほうが良いですし、ベクトル空間として表現可能な画風を英語で指定できさえすればよいので、有効なキーワードを知っていることが実力となるでしょう。
むしろここを人間と対話的に学習させるインタフェースなども需要が出てきそうです。word2vecのようなベクトルの演算でも表現可能です。つまり「AIが美しい絵を描くなら人類は絵を学ばなくていいか」という命題は、「学ぶ必要がある」ということであり、もはやPythonを用いた数学や統計学も芸術の一端をになっているかもしれません。「描かなくていいか」は実際の絵の具やデジタルイラストレーションの過程と同じように「必要があれば道具として使ったり学んだりすればいい」という事になるかと思います。

プロンプトエンジニアリングは絵師ではないが、美学を持った技師である

「呪文」と呼ばれる美しい絵を生成するプロンプトエンジニアリングをしている人々(私もその一人ですが)は、絵師ではありません。画像(picture, image)は生成していますが、ドローイング(drawing)はしていません。つまり画家は名乗ってもいいかもしれないが、描いていない。

では何が重要か?
彼らには美学と知識と、「美しい絵を探求する情熱」が必要です。

ひたすらプロンプトやパラメータを改善し、Pythonを叩き、GPU代金を払い、そのショットをたくさん作って、たくさん生成してもらった、その中から人間の美学で抽出していくのです。
これは高いカメラを持っていて、フィルムをバンバン使って「なんとしてでもいい表情を撮るぞ!」と暗室と現場を行き来しているフォトグラファーと変わりありません。

SNS時代のアマチュア画家にとってAI神絵師とは何なのか

問題は「上手い」とか「下手」とか、人間は美醜に対して真剣になればなるほど「美しさに対して不寛容である」という点です。アマチュア画家がソロで描いているだけであれば、描いている本人がよければそれでいいのですが、SNS時代においては、
 1. 本人が好きで描いているのであればそれでいい 2. 上手い人が視界に入る 3. 自分の絵が恥ずかしくなる …といったサイクルに常に晒されます。これは実はSNS時代に限ったことではなく、同人誌時代も同じことですし、昭和の時代の漫画家であれば、雑誌や投稿の上で戦っていました。このステップには続きがあります。
 1. 本人が好きで描いているのであればそれでいい 2. 上手い人が視界に入る 3. 自分の絵が恥ずかしくなる (ここで折れてしまう人もいるのですが) 4. うまい人の絵をみて学ぶ
…というスイッチが重要かもしれません。「この人うまい!」と思うだけならいくらでもいるのですが、「ああ!こういう表現があったか、こういう構図、こういうシチュエーション、こういう描線…この瞳はどうやって描いているのだろう…?」といった探求心と向上心がジェラシーよりも上回ることが大切だと思います。単に上手な絵を蒐集している人と、手を動かして描いている人の違いはそこにあるかもしれませんし、その2者の違いはとても大きいです。
そしてこのプロセスはAI神絵師にとってもなんら変わりません。いいプロンプトがあれば盗む、これは今までの漫画やイラストの世界の技術で「描く技術を盗む」そのマインドと何ら変わらないかもしれません。
(良いか悪いか、ではなく、そういう性質のものだということです)

そして、冒頭のこういう感想を抱くのです。

Stable Diffisuionで描いた絵をpixivにアップロードした瞬間に画風を見抜いておすすめタグを提案してくるんだけど、潜在変数とエンコーダとデコーダーの合間で絵を描いている感はんぱない。
著者のつぶやきから(2022/9/3)

沢山のAI神絵師が登場し、高品質の絵を見せつけられ続ける中で、モチベーションを高く維持し続けられるもののみがその街道を走り続けられます。

今後人類は絵を描く必要があるか?学ぶ必要があるか?

絵を描く必要があるかどうか?学ぶ必要があるかどうか?については実際に体験して本気で画像を作ってみるとわかることがあると思います。

https://note.com/o_ob/n/n8504d56b990d

そこには明確な技量が必要であり、若い人や経験がある人にとっても、一度は体験しておくべき衝撃があると思います。そしてそれは、「エンピツをもって絵を描くことの意味」とほぼ同意ではないでしょうか。つまり「その技法で頑張ること」の意味を自分が理解すれば、それにこだわる必要はないが、やったことがない状態で良し悪しを判断するのは野蛮なことである、というぐらいの話でしょうか。もちろん「苦労したほうが良いものが描ける」という視点もあると思いますが、技法としての苦労と、表現としての苦労、表現者の表現したい画風とはそれぞれ異なってよいという見方ができるかどうかです。単体の脳にとって、美的な何かを探求する、自らのモチベーションと向き合う、という行為は大変刺激のある行為であり、数億~数十億といった、現在の地球人類の個体数の総和に匹敵する数のスタイルを学習したAIと対話することの意味は、まさに人類がいままで描き残してきた画像メディアの歴史的集約との対話を行っていることに他ありません。神絵師との対話は「こういう画像を得たい」という人間のモチベーションと向き合うことに他ありません。むしろ人類が「画像などいらぬ」という存在であれば、AIアルゴリズムやそれを開発する企業、新しいスタイルを収集して学習させるオペレーターは不要です。人間の欲望、無垢な想像力と向き合っていく必要があります。例えば日本語入力IMEのような、予測変換やUI技術を駆使した日本語文字入力技術がなければ、我々日本人はまともに文章を書くことすら難しいでしょう。そのような技術をなくして、小中高校のような鉛筆がなければ書けない日本語のみを「日本語」とすることはとても乱暴で、それすらも「鉛筆やノート」という工業製品がなければ成立していません。

近代史から想像する「絵を描くこと」と技術の関係

私は写真からバーチャルリアリティに入った人間なのですが、そういえば印象派画派は写真機の誕生によって生まれているという美術史観もありますね。古くはルネサンス時代のレオナルド・ダヴィンチの遠近法や17世紀のフェルメールは遠近法に、ピンホールカメラの物理を使ったカメラ・オブスキュラを使っています。さらに写真の発明、特にネガポジ方式である「カロタイプ(calotype)」が発明されたは1841年以降は、写真を容易に複製し、拡大縮小もできるようになりました。しかし、ここからデジタルカメラまで一足飛びに行くのではなく「写真」というメディアが誕生したころから今ののスマートフォンのカメラに至るまで、それはもう大変な技術競争があったのです。

イギリスのウィリアム・ヘンリー・フォックス・タルボットが考案し、1841年に特許を取得した技法で、発明者の名にちなんで「タルボタイプ」とも呼ばれる。硝酸銀を塗って感光性を与えた紙ネガをカメラの中に入れて撮影する。「カロ」はギリシャ語の「Kalos(美しい)」を語源とした造語。ダゲレオタイプは一度の撮影で一点限りのポジ像しか得られないが、カロタイプはロウで半透明にした紙ネガをもう一枚の印画紙と重ね合わせて感光させることで、複数のポジが得られる世界初のネガ・ポジ法であり、ダゲレオタイプのように左右逆像にもならない。ちなみに「ネガ(陰画)」と「ポジ(陽画)」という言葉を考案したのはタルボットの協力者であった科学者のジョン・ハーシェルとされている。35年にすでに独自の写真術を成功させていたタルボットは、ダゲレオタイプ発明の報を聞き、39年1月31日にロンドン王立協会で自分こそが写真術の最初の発明者であることを主張、後にカロタイプへ発展する「フォトジェニック・ドローイング」を発表する。カロタイプは紙を支持体とするために像の耐久力や精巧さにおいてダゲレオタイプよりも劣っていたが、紙の繊維が光を拡散させて芸術的効果を生んだ。また、金属板であるダゲレオタイプよりも軽くて扱いやすいため撮影旅行にも重宝され、イギリスやフランスを中心に改良が進んだ。その後60年を過ぎるとフレデリック・スコット・アーチャーが公開したコロディオン法に駆逐される。
カロタイプ Calotype Artword 

ちなみにタルボットのカロタイプやダゲレオのダゲレオタイプ(銀板写真)よりも先に、写真技術を発明していた人物がいます。フランスのイポリット・バヤール(1801-1887)です。タルボットが特許を取る前の1839年にはネガポジ方式を提案していますが、ちょっとした謀略により認められませんでした。バヤールはその悔しさを大判のセルフポートレートにしてフランス王立科学アカデミーに送り付けていますが、その作品は世界初の自死捏造写真(怨念入り)になっています。もちろん銀板写真方式ではこんな大きなセルフポートレート作品は作れませんから技術的整合性も最高!のエピソードですね。

Photographer初期の時代----技術・ヴィジョン・利用者たち 1839-1875(多摩美術大学)

写真の渡来(東京工芸大学)

その写真技術の革新競争にあった19世紀、技術者・発明家ではなく、画家、とくに印象派画家は写真から新たな創作意欲を刺激されたています。写真機の登場によって肖像画を描く市場価値は大きく下がっていたのかもしれません。画家たちは、それまでのようにスタジオに籠ってランプの光で歴史的な絵画や肖像画を製作するのではなく、日常的なモチーフを屋外に出て自然光の下で絵を描くことに興味を持ち始めます。
ただし当時の画家たちはパレット上で顔料と油を混ぜて絵の具を作ってから製作に取り掛かる必要があったため、スタジオの外で絵を描くことは実質的に不可能でした。偶然にも「チューブ絵の具」が発明されたのは写真機が登場した1841年とほぼ同時期です。現在は小中学生の図画工作の時間に当たり前のように使われているチューブ絵具ですが、当時ルノワールは「チューブ絵の具が発明されなかったら印象派も生まれなかった」と言っているそうです。

脳の中で何かが起きている

さて、近代科学史から人類の「絵を描くこと」と技術の関係を紹介してみました。ところでここ数日、AI神絵師として実験を行っている間、描き手、クリエイターとしての感覚として、自分の画力や筋力(気合の入った絵を何時間も高速に描き続けるには筋力が必要です)に関係なく、新しいスタイルの発見や、上手な出力ができるようになると「脳が発火している」を感じました。

つまり自分の脳は絵を描きたい。表現したい、表現を探求したい。これは単体の脳でも感じます。それを脳の外に画像として放出することで、他者の評価や需要を満たす、そしてもっと上手にAIを使いこなす人々にジェラシーを描いたり、その技術を獲得するためにお金を払ったりする人も出てくると思います。

これはフォトグラファーであった頃の自分が感じていたパッション(フォトジェニック;photogenicともいいます)と呼ばれていたものとほぼ同じだと思います。「この瞬間の美をとらえたい」「表現したい」「他の人に伝えたい」、「もっとすごい表現をする人がいる」そのサイクルがある限り、この「AI画像生成で美しい絵を作る」というサイクルは人類にとって意味を持つように思います。

後の人類にとっては「当たり前だよね??」という話でしょうけどね!

きっとお年寄りにはいいと思います。私もお年寄りなのかもしれないが!

人工知能とともに絵を描くという行為が人類にどんな影響を与えているか、そして
「人類は働きたいのか?」の結論

おそらくStableDiffusionによって、人類と「美しい絵を描く」という行為との関係には少しだけ変化が表れてくると思います。それは前述のとおり、技術の革新であり、表現や道具が「誰でも使える」という状態によって現れるパラダイムシフトです。しかし、そもそも全人類が絵を描きたかったのでしょうか?「人類は働きたいのか?」という問いにしたのですが、それは「AIが仕事を奪う」という概念がどこかにあるのではないでしょうか?

しかし、どうでしょう?例えば皆さんはスポーツクラブのようなところで運動をしませんか?労働や運動のように「自分からの努力で無駄なエネルギーを消費する」という行為は何故行っているのでしょうか?気晴らし?筋力の向上?余った脂肪や糖分などのエネルギーの消費が目的?なんだか「遊びの理論」そっくりの話ではありませんか。

近い将来、「絵を描く」という行為は、「AIプロンプトエンジニアリングによって書き手がコンピュータに描かせることもできるが、自分で描く人もいる」という常識に変わるでしょう。現在でもデジタルイラストレーションによって、油彩のような表現は、より工芸としての意味合いと、素材との対話、芸術の本質との対話が強くなっていくでしょう。
その「素材との対話」「芸術表現との対話」は、本当にその対話がしたい人だけに限られているべきでしょうし、それは現在も美術大学の油彩科にいる方々であるので、実はあまり変わらないのかもしれません。

そして人々、特に子供たちは趣味としてStableDiffusionに対して、様々な言葉を投げかけ、その対話の中から、「もっと言葉を学ぶべきだ」「表現を学ぶべきだ」「いや、私は自分で鉛筆をもって描きたい」といった自我に目覚めていくのだと思います。そこには自身の自我と美的感覚への探求が必ず存在するのです。

おまけ告知

「遊びの理論」の話は筆者のベストセラー本「白井博士の未来のゲームデザイン」にしっかりと書かれていますので是非参考にしてほしいです。


カバーイラストは
「そんなこと、いわれても」

技術書典13 に出展します!

以上でStable Diffusion / Dream Studio 公式ガイドの日本語訳+ちょっとした解説と実験を終わります。

なお宣伝ですが、
グリー技術書典部誌 2022秋号
「AIとコラボして人気絵師になる」
30ページぐらいあります

目次紹介↓

電子版も9月10日に予定しているそうなので、こちらのグリー技術書典部@BOOTHをフォローして待っててね!

何かありましたらこちらのアカウントでご連絡いただければ幸いです。

この記事が気に入ったらサポートをしてみませんか?