プロンプトエンジニアリングでAI画像生成。 必読情報4選
2022年8月現在、AIの指数関数的な成長は続き、その活用がいよいよ学術から一般ユーザーに広がる非常にエキサイティングな時期にいます。2022年4月にOpenAIがDALL・E2を発表、その後、GoogleのImagenやPartiなど続々と巨人が「テキストから画像を生成する」技術を発表をしました。その「技術革新の波」が第1波。続いて、パブリックβ、一般公開と多くの人の手元に届くにつれ第2波「集合知とプロンプトエンジニアリング」の波が来ています。
新しい技術プロンプトエンジニアリングと、それに熱狂するAIアートコミュニティ。ブラックボックスなAIをプロンプトエンジニアリングという道具を使い、皆で知恵をあわせ開拓しているような勢いがあります。その集合知の成長速度もまた指数関数的です。この集合知の指数関数的な成長速度はプログラムのオープンソースの世界に似ています。しかし「プログラミング言語」と大きく違うのは、プロンプトエンジニアリングで用いるのは「ふつうの言語」だということです。誰でも使える言葉がベースになっていることが盛り上がりに拍車をかけています。
誰でも使える「ふつうの言語」と言いましたが、熱源の中心は「英語圏」。今のところプロンプトは英語で書く必要があります。言語の壁もあってか残念なことに、日本語圏だといまひとつ有用な情報が出回りきっていません。そこで、プロンプトエンジニアリング界のマイルストーンとも呼ぶべき必読情報をまとめてみました。
3ステップ クイックスタートガイド
エンジニアリングの世界には「習うより慣れよ」という格言があります。
以下のステップで遊びながら慣れていくのが良いでしょう。
1のガイドブックで全体をつかむ
3の先人の集合知をもとに色々試してみる
困ったら2の辞書をひく
では、1から見ていきましょう。
1.プロンプトのガイドブック
全編英語ですが「こういう単語を並べると、こういう画像ができるのね」が分かります、まずはこれから。これはDALL・E2用ですが基本技術は同じため他のサービスでも活用できます。
2.プロンプトの辞書
同一モチーフで168種類の紙、82種類のフィルム、52種類の3Dパターンを生成した結果が見れます。
70人のアーティストスタイル
3.先人の集合知から学ぶ
2022年8月現在、一般公開されている唯一のAI画像生成サービスがMidjourneyです。このツールが他のAI画像生成ツールと一線を画しているところは、そのコミュニティデザインです。設立者デヴィッド・ホルツはこう語ります。
その美的加速主義をさらに加速させたのがコミュニティフィード。先人の作品とプロンプトを検索&閲覧できます。Midjourneyを初めた人は、まず10ドルの有料プランに1ヶ月加入してフィードの検索権をGetするのが良いでしょう。人のプロンプトから学ぶ、コミュニティから学ぶ。それがプロンプトエンジニアリングを使いこなす近道です。
4.プロンプトエンジニアリングの源流
このムーブメントは2021年1月にOpenAIが初代DALL-Eと同時に公開した技術CLIPがあちこちで使われ盛り上がりはじめました。まず着火したのはDisco Diffusionというオープンソース界隈です。これは日々公開される最先端AI論文とそのサンプルコードをフランケンシュタイン的に組み合わせAIアートツールを作ってしまおうという試み、基本無料で使えます。そのDisco Diffusionガイドの決定版がこちらです。技術的な内容が多いですが、Latent Spaceなどのディープな内容を理解するとよりAIを使いこなせます。
またDisco Diffusionはすでに1年ほどの歴史があるためYoutubeにもチュートリアル動画が多くあります。ある程度プログラムが書けるなら取り入れてみると表現の幅が格段に広がります。
5.その他
NFT
この盛り上がりの背後にあるもう一つのエンジンがNFTマーケットです。シーンの初期Disco Diffusion時代から活動しているクリエーターの中にはNFTマーケットで、それなりに売上をあげるプレイヤーも出てきています。宮崎駿、新海誠に影響を受けたと語るこのAIアーティスト。Instagramを見ているとファンも集め、急速にAIも画風も自分のものにしていっている様子が見て取れます、今後どうなるか楽しみな作家です。
AIアート作品ばかり集めたギャラリーも登場しています。取引総額は577ETHとそれなりのボリュームになっています。
DeepL Pro
プロンプトエンジニアリング界の公用語は英語。情報を探すのなら英語圏で探した方が量も質もあります。そしてDiscordが活発な情報源のところも多くあります。非ネイティブがチャットのフランクな大量外国語を読むのはなかなか厳しい…そこで、オススメなのがDeepLProへの課金。ブラウザでDiscordを開けばDiscordでさえも翻訳できてしまいます。
プロンプトガイドブックのChrome拡張
最初に紹介したガイドブック情報をもとに作られたChrome拡張。DALL-EのUIを勝手に拡張。GPT3 APIを使ったプロンプトの補完機能までついています。未来の画像制作ソフトはこんなUIなのかもしれません。
プロンプトのマーケットプレイス
需要があるところにはマーケットが立ち上がります。プロンプトエンジニアリング界の闇市と呼んでおきましょう。
現実のバリエーションを生成
Android搭載のソニー製カメラと連携し、撮影した画像のバリエーションをAIに作らせる試み。Gitでソースも公開されています。DALL-EなどがAPIを公開すると、このようなサードパーティアプリも増えてきそうです。カメラで取った写真をもとにマルチバースな世界を作成する日がやってくるのかもしれません。
6.おわりに 想像力のエンジン
最後にMidjourneyのデヴィッド・ホルツの言葉を紹介します。
想像のためのエンジンを使って、あらたな世界へ旅立ちましょう!
この記事が気に入ったらサポートをしてみませんか?