日刊 画像生成AI (2022年9月12日)
画像生成AI界は、今認識できないスピードで進化をし続けています。
DALL・E2公開、Midjourney公開、StableDiffusionがオープンソースで公開されて..進化の速度が上がり続けており、日々異常なスピードで変化しています。
そんな中、毎日時間なくて全然情報追えない..!って人のために業界変化、新表現、思考、問題、技術を毎日あらゆるメディアを調べ、まとめています。
昨日までの投稿はこちら
(最近いいねもフォローも増えてきて嬉しいです。ありがとうございます。)
開発
Deforum Stable Diffusion v0.4公開
ついにDeforum Stable Diffusion v0.4公開です。diffusion cadence parameter(これはちょっとまだ理解できていません)、save_depth_maps checkbox(深度マップ生成)、Doggettx higher resolutions(Doggettx高解像度化)の機能が追加されたようです。
DeffusionBee 公開 (mac対応!!)
ついにきましたね! おめでたい。Stable DiffusionをM1 Mac でローカルに実行する最も簡単な方法が登場しました。環境をつくらずとも、ワンクリックでインストールできてしまいます。Mac book pro M1 Maxの環境なのでこれはとても嬉しい。もっとwindowsで公開されているようなツールに入っているシステムが導入されてほしい。
インストールはこちらから。
ImageMart公開
AI開発者のあんどうさん、かいどうさんで画像を入力したら類似画像を生成してくれるサービス「ImageMart」を公開されました。技術としては以前この日刊でも紹介していたものですが、簡易的にみんなで利用できるようになるのはとても嬉しいですね!この機能は有料写真サイト、素材サイトサービスに対してかなり破壊的です。気軽に使えるようになるのはかなり大きなことだと思っています。
ベータ版の招待はこちら。
解説ページはこちら。
以前Twitterで紹介してたもの。
Stable Diffusion Pythonコードを+から+=にしたら7%パフォーマンス向上した。最大7%高速化
シームレスなタイル画像生成colab
シームレスなタイル画像を生成するように改造されたStable Diffusionは、コードやReplicateで公開されていますが、Google Colabでも公開されました。
以下スクリーンショットです。
Image Variations Colab公開
ImageMartが公開されましたが、同時にColabの方でもGradioを使ったImage Variationsが登場しました。こちらも画像をインプットすると類似の画像を生成してくれます。Colabだと利用できない方がいたり、立ち上げが遅かったりするのでImageMartの公開が楽しみです。
研究
Dreambooth Stable Diffusion
布留川さん(npakaさん)がGoogleが公開したDreamboothのStable Diffusion実装を試されていたのでメモ。クオリティが高くてすごい..これはやならきゃですね。しかも15分で学習できちゃうそうです。
ClipDrop活用者続々
ClipDropがリリースされ、利用者をたくさん見かけるようになりました。イラストでも利用できるのはすごいですね。
Waifu Diffusionをファインチューニング
アップスケーラー比較
解像度をアップさせる、アップスケーラーの比較。LDSR知らなかったのですが、筆の質感っぽいのがかなり出ていていい感じですね。
元画像を再構成するノイズを見つけることで、img2imgを行うより良い(?)方法
img2imgよりもかなり良い方法としてこちらが紹介されています。こちらかなりすごい。昨日のnoteで紹介したクロスアテンションコントロールを使用してこの方法で修復すると、単に画像をマスクしてランダムノイズを追加するよりもはるかに優れた結果が得られるはずらしいです。これがもし実現したら..、photoshopいらずでガンガン言葉だけで編集できちゃう未来がきそう。
表現
Processing→Stable Diffusion
以前やってる方がいましたが、パターングラフィックを生成して、お花畑のようなグラフィックを生成するという、かなり様々な領域で応用が効きそうな感じがしたのでメモ。
z軸回転のみ x WarpDiffusion
意外とz軸回転のみのものはあまり見たことがなかったのでメモ。まだまだ可能性がありそう。
アステカ未来派
Redditで1番伸びていたのでメモ。マーベル映画の「ブラックパンサー」で登場する未来的だけどアフリカっぽいあの世界観に似ていて面白いです。
4096×2048の超解像度背景生成
巨大背景を生成している方がいたのでメモ。
Youtubeで解説動画も上げられています。
思想・ムーブメント
深津さんのインタビュー企画公開
一部の人しか知らなかった内容がブワーっと日本語で拡散されましたね。後半僕も知らなかった内容だったのでこのインタビューはとてもありがたいです。「年には100枚の画像を1セント(約1.4円弱)で作れるようにする予定」
「私たちのウェブサイトの訪問者の3分の1が日本人である」など、様々な最新情報が盛りだくさんです。ぜひ。
清水さんのmemeplex立ち上げた時の話
Youtubeで語られている動画は見ていましたが、memeplex立ち上げられた裏側にはこんな苦労があったのかと驚きました。清水さん(shi3z)すごいです。
mimicの中の人対談
まっくすさんが対談されている動画が昨日公開されたようです。
30分程度の動画なので時間あるときに見ます。楽しみ。
DALL・E2で本の表紙を作成した人現る。
勉強
DeepLearingを学ぶ
Emadさんが紹介されてたサイト。かなり良さそうなのでメモ。
BrainPad社のデータサイエンティスト有志メンバーの解説
最後に
最初、stable diffusionのnote書いた時はプロンプトエンジニアになる!と意気込んでいましたが、その思いは変わりません。ただ、重要なのはパラーメーターや細かいプロンプト芸は、プロンプトを他のAIでもっと分かりやすく置き換える研究を見たことがありますし、AIごとで結構変わったりしますし、どんどんデータセットも変わったりして、あまりテンプレのように覚えるのは意味がないと思っています。プロンプトエンジニアの闘いどころは「どれだけ概念を知っているか」「すぐに利用できるか(慣れ)」というところになる気がしています。
Twitterに、毎日製作したものや、最新情報、検証を載せています。よかったらフォローしていただけますと幸いです。
前回の号はこちら
次の号はこちら
サポートいただけると喜びます。本を読むのが好きなので、いただいたものはそこに使わせていただきます