見出し画像

プロンプトエンジニアリングでAI画像生成。 必読情報4選

2022年8月現在、AIの指数関数的な成長は続き、その活用がいよいよ学術から一般ユーザーに広がる非常にエキサイティングな時期にいます。2022年4月にOpenAIがDALL・E2を発表、その後、GoogleのImagenやPartiなど続々と巨人が「テキストから画像を生成する」技術を発表をしました。その「技術革新の波」が第1波。続いて、パブリックβ、一般公開と多くの人の手元に届くにつれ第2波「集合知とプロンプトエンジニアリング」の波が来ています。

新しい技術プロンプトエンジニアリングと、それに熱狂するAIアートコミュニティ。ブラックボックスなAIをプロンプトエンジニアリングという道具を使い、皆で知恵をあわせ開拓しているような勢いがあります。その集合知の成長速度もまた指数関数的です。この集合知の指数関数的な成長速度はプログラムのオープンソースの世界に似ています。しかし「プログラミング言語」と大きく違うのは、プロンプトエンジニアリングで用いるのは「ふつうの言語」だということです。誰でも使える言葉がベースになっていることが盛り上がりに拍車をかけています。

誰でも使える「ふつうの言語」と言いましたが、熱源の中心は「英語圏」。今のところプロンプトは英語で書く必要があります。言語の壁もあってか残念なことに、日本語圏だといまひとつ有用な情報が出回りきっていません。そこで、プロンプトエンジニアリング界のマイルストーンとも呼ぶべき必読情報をまとめてみました。

3ステップ クイックスタートガイド

エンジニアリングの世界には「習うより慣れよ」という格言があります。
以下のステップで遊びながら慣れていくのが良いでしょう。

  1. 1のガイドブックで全体をつかむ

  2. 3の先人の集合知をもとに色々試してみる

  3. 困ったら2の辞書をひく

では、1から見ていきましょう。

1.プロンプトのガイドブック

全編英語ですが「こういう単語を並べると、こういう画像ができるのね」が分かります、まずはこれから。これはDALL・E2用ですが基本技術は同じため他のサービスでも活用できます。

写真画像を作るときのプロンプトの基本構文
200を超えるプロンプトと作例が掲載されている


2.プロンプトの辞書

同一モチーフで168種類の紙、82種類のフィルム、52種類の3Dパターンを生成した結果が見れます。

70人のアーティストスタイル

3.先人の集合知から学ぶ

2022年8月現在、一般公開されている唯一のAI画像生成サービスがMidjourneyです。このツールが他のAI画像生成ツールと一線を画しているところは、そのコミュニティデザインです。設立者デヴィッド・ホルツはこう語ります。

「約100万人がDiscordの共有スペースで共同イマジネーションを行っています。誰もが互いを真似して、新しい美学を生み出しているのです。これは美的加速度主義のようなものです。それらは湧き上がり、渦を巻いていますが、AIの美学ではありません。それらは、新しく、興味深い、人間の美学であり、世の中に流出していくと思います。」

https://www.theverge.com/2022/8/2/23287173/ai-image-generation-art-midjourney-multiverse-interview-david-holz

その美的加速主義をさらに加速させたのがコミュニティフィード。先人の作品とプロンプトを検索&閲覧できます。Midjourneyを初めた人は、まず10ドルの有料プランに1ヶ月加入してフィードの検索権をGetするのが良いでしょう。人のプロンプトから学ぶ、コミュニティから学ぶ。それがプロンプトエンジニアリングを使いこなす近道です。

猫で検索した結果、作成した画像だけでなくプロンプトも見れる

4.プロンプトエンジニアリングの源流

このムーブメントは2021年1月にOpenAIが初代DALL-Eと同時に公開した技術CLIPがあちこちで使われ盛り上がりはじめました。まず着火したのはDisco Diffusionというオープンソース界隈です。これは日々公開される最先端AI論文とそのサンプルコードをフランケンシュタイン的に組み合わせAIアートツールを作ってしまおうという試み、基本無料で使えます。そのDisco Diffusionガイドの決定版がこちらです。技術的な内容が多いですが、Latent Spaceなどのディープな内容を理解するとよりAIを使いこなせます。

またDisco Diffusionはすでに1年ほどの歴史があるためYoutubeにもチュートリアル動画が多くあります。ある程度プログラムが書けるなら取り入れてみると表現の幅が格段に広がります。

5.その他

NFT

この盛り上がりの背後にあるもう一つのエンジンがNFTマーケットです。シーンの初期Disco Diffusion時代から活動しているクリエーターの中にはNFTマーケットで、それなりに売上をあげるプレイヤーも出てきています。宮崎駿、新海誠に影響を受けたと語るこのAIアーティスト。Instagramを見ているとファンも集め、急速にAIも画風も自分のものにしていっている様子が見て取れます、今後どうなるか楽しみな作家です。

作者はDiscoで作りESR GANで拡大、vast.aiのA6000 GPUを使用しているとのこと

AIアート作品ばかり集めたギャラリーも登場しています。取引総額は577ETHとそれなりのボリュームになっています。

3000の作品を見ているとAIが何を作れて何を作れないかも分かってくる

DeepL Pro

プロンプトエンジニアリング界の公用語は英語。情報を探すのなら英語圏で探した方が量も質もあります。そしてDiscordが活発な情報源のところも多くあります。非ネイティブがチャットのフランクな大量外国語を読むのはなかなか厳しい…そこで、オススメなのがDeepLProへの課金。ブラウザでDiscordを開けばDiscordでさえも翻訳できてしまいます。

DiscordだけでなくYoutube、Udemyなども翻訳でき作者も重宝している


💡 以下は、現在の各サービスの規約ではグレーなものです。新しい可能性の芽吹きとして紹介しますが、お使いのAIサービスのアカウントが利用停止になる可能性もありますので、ご利用はご注意ください。

プロンプトガイドブックのChrome拡張

最初に紹介したガイドブック情報をもとに作られたChrome拡張。DALL-EのUIを勝手に拡張。GPT3 APIを使ったプロンプトの補完機能までついています。未来の画像制作ソフトはこんなUIなのかもしれません。

https://github.com/altryne/dalle-prompt-extension

プロンプトのマーケットプレイス

需要があるところにはマーケットが立ち上がります。プロンプトエンジニアリング界の闇市と呼んでおきましょう。

https://promptbase.com/

現実のバリエーションを生成

Android搭載のソニー製カメラと連携し、撮影した画像のバリエーションをAIに作らせる試み。Gitでソースも公開されています。DALL-EなどがAPIを公開すると、このようなサードパーティアプリも増えてきそうです。カメラで取った写真をもとにマルチバースな世界を作成する日がやってくるのかもしれません。

https://www.quantum-mirror.com/

6.おわりに 想像力のエンジン

最後にMidjourneyのデヴィッド・ホルツの言葉を紹介します。

コンピュータが人間の99パーセントよりも視覚的な想像力に優れているとしたら、それは何を意味するのでしょうか?だからといって、私たちが想像することをやめてしまうわけではありません。車は人間より速いですが、だからといって私たちが歩かなくなるわけではありません。飛行機であれ、船であれ、車であれ、膨大な量のものを膨大な距離で移動させるときには、エンジンが必要です。私たちは、この技術を想像のためのエンジンと考えています。つまり、とてもポジティブで人間的なものなのです。

想像のためのエンジン:
ミッドジャーニー創業者デイヴィッド・ホルツ インタビュー


想像のためのエンジンを使って、あらたな世界へ旅立ちましょう!


この記事が気に入ったらサポートをしてみませんか?