日刊画像生成AI (2022年9月12日)

2022年9月13日 07:34

画像生成AI界は、今認識できないスピードで進化をし続けています。
DALL・E2公開、Midjourney公開、StableDiffusionがオープンソースで公開されて..進化の速度が上がり続けており、日々異常なスピードで変化しています。

そんな中、毎日時間なくて全然情報追えない..！って人のために業界変化、新表現、思考、問題、技術を毎日あらゆるメディアを調べ、まとめています。

昨日までの投稿はこちら
(最近いいねもフォローも増えてきて嬉しいです。ありがとうございます。)

開発

Deforum Stable Diffusion v0.4公開

ついにDeforum Stable Diffusion v0.4公開です。diffusion cadence parameter（これはちょっとまだ理解できていません）、save_depth_maps checkbox（深度マップ生成）、Doggettx higher resolutions（Doggettx高解像度化）の機能が追加されたようです。

Deforum Stable Diffusion v0.4
- diffusion_cadence parameter
- save_depth_maps checkbox
- Doggettx higher resolutionshttps://t.co/mWNkzWcMqK
— deforum (@deforum_art) September 11, 2022

DeffusionBee 公開 (mac対応!!)

ついにきましたね！おめでたい。Stable DiffusionをM1 Mac でローカルに実行する最も簡単な方法が登場しました。環境をつくらずとも、ワンクリックでインストールできてしまいます。Mac book pro M1 Maxの環境なのでこれはとても嬉しい。もっとwindowsで公開されているようなツールに入っているシステムが導入されてほしい。

インストールはこちらから。

ImageMart公開

AI開発者のあんどうさん、かいどうさんで画像を入力したら類似画像を生成してくれるサービス「ImageMart」を公開されました。技術としては以前この日刊でも紹介していたものですが、簡易的にみんなで利用できるようになるのはとても嬉しいですね！この機能は有料写真サイト、素材サイトサービスに対してかなり破壊的です。気軽に使えるようになるのはかなり大きなことだと思っています。

ベータ版の招待はこちら。

解説ページはこちら。

以前Twitterで紹介してたもの。

画像をインプットしたらそのバリエーションを生成するように改良された #stablediffusion が先程公開されました。https://t.co/5xB7KJachW pic.twitter.com/HFTbDf53H7
— やまかず (@Yamkaz) September 5, 2022

Stable Diffusion Pythonコードを+から+=にしたら7%パフォーマンス向上した。最大7%高速化

Stable Diffusion の Python コードで x = ... + x を x += ... に書き換えただけで最大7%も実行が速くなったらしい https://t.co/iRoBxQX1bP
— ドッグ (@Linda_pp) September 12, 2022

シームレスなタイル画像生成colab

シームレスなタイル画像を生成するように改造されたStable Diffusionは、コードやReplicateで公開されていますが、Google Colabでも公開されました。
以下スクリーンショットです。

Seamless textures with #stablediffusion notebook released!

Different than one yesterday that uses convolutions (this cuts the outside, pastes it on the inside, inpaints the outside, and glues them back making a 100% perfect seam)https://t.co/qJHMmx58sn pic.twitter.com/9PFrK0czZZ
— Travis Hoppe (@metasemantic) September 11, 2022

Image Variations Colab公開

ImageMartが公開されましたが、同時にColabの方でもGradioを使ったImage Variationsが登場しました。こちらも画像をインプットすると類似の画像を生成してくれます。Colabだと利用できない方がいたり、立ち上げが遅かったりするのでImageMartの公開が楽しみです。

研究

Dreambooth Stable Diffusion

布留川さん（npakaさん）がGoogleが公開したDreamboothのStable Diffusion実装を試されていたのでメモ。クオリティが高くてすごい..これはやならきゃですね。しかも15分で学習できちゃうそうです。

ClipDrop活用者続々

ClipDropがリリースされ、利用者をたくさん見かけるようになりました。イラストでも利用できるのはすごいですね。

これすごい…(消) pic.twitter.com/elKKCA8Wqt
— kohaku (@kohaku__0) September 11, 2022

NICE TIP FOR ARTISTS!

I saw someone using it so I'm sharing.
This is an AI that lets you use and manipulate light to study and understand how it works on your drawings!
You can set the color and how many lights you want!

Link is: https://clipdrop. co/relight (without spaces) pic.twitter.com/hiptlEtiCy
— ✧ Yaya ややちゃん｡ﾟVartist| Comms closed (@YayaChanArtist) September 12, 2022

Waifu Diffusionをファインチューニング

二次利用フリー/商用可になっている漫画作品「ブラックジャックによろしく」の画像26枚でWaifu-diffusionをファインチューニングしてみた(Blackjack-diffusion？) 1枚目が学習画像の抜粋、2枚目が生成画像。雰囲気はまぁまぁ掴んでますね。#stabledifussion #WaifuDiffusion #trinart pic.twitter.com/hJEf471Zz2
— クニえもん.inc🤗 (@kun1em0n) September 12, 2022

アップスケーラー比較

解像度をアップさせる、アップスケーラーの比較。LDSR知らなかったのですが、筆の質感っぽいのがかなり出ていていい感じですね。

https://www.reddit.com/r/StableDiffusion/comments/xbvcjr/a_comparison_between_the_different_super/

元画像を再構成するノイズを見つけることで、img2imgを行うより良い(?)方法

img2imgよりもかなり良い方法としてこちらが紹介されています。こちらかなりすごい。昨日のnoteで紹介したクロスアテンションコントロールを使用してこの方法で修復すると、単に画像をマスクしてランダムノイズを追加するよりもはるかに優れた結果が得られるはずらしいです。これがもし実現したら..、photoshopいらずでガンガン言葉だけで編集できちゃう未来がきそう。

https://www.reddit.com/r/StableDiffusion/comments/xboy90/a_better_way_of_doing_img2img_by_finding_the/

表現

Processing→Stable Diffusion

以前やってる方がいましたが、パターングラフィックを生成して、お花畑のようなグラフィックを生成するという、かなり様々な領域で応用が効きそうな感じがしたのでメモ。

#Processing (#p5js) で作成した画像を #stableDiffusion 画伯に加工してもらう実験。

1枚目が元画像。2～4が加工してもらったもの。
詠唱文は「flower, garden, leaves, nature」とシンプルでもいい感じ。
重みづけは「--strength 0.55」0.6だと結構加工されちゃったので0.55ぐらいがよさげだった。 pic.twitter.com/IvOfnswJNS
— はぅ君 (@Hau_kun) September 12, 2022

z軸回転のみ x WarpDiffusion

意外とz軸回転のみのものはあまり見たことがなかったのでメモ。まだまだ可能性がありそう。

This is for day 11 of #septembAIr.

"🐶"#animation #stablediffusion #DeforumDiffusion #septembAIr2022 pic.twitter.com/Tjvrdqkwa7
— Benjamin Scott-Pye (@benscottpye) September 11, 2022

アステカ未来派

Redditで1番伸びていたのでメモ。マーベル映画の「ブラックパンサー」で登場する未来的だけどアフリカっぽいあの世界観に似ていて面白いです。

https://www.reddit.com/r/midjourney/comments/xbqave/aztecfuturism/

4096×2048の超解像度背景生成

巨大背景を生成している方がいたのでメモ。
Youtubeで解説動画も上げられています。

思想・ムーブメント

深津さんのインタビュー企画公開

一部の人しか知らなかった内容がブワーっと日本語で拡散されましたね。後半僕も知らなかった内容だったのでこのインタビューはとてもありがたいです。「年には100枚の画像を1セント（約1.4円弱）で作れるようにする予定」
「私たちのウェブサイトの訪問者の3分の1が日本人である」など、様々な最新情報が盛りだくさんです。ぜひ。

清水さんのmemeplex立ち上げた時の話

Youtubeで語られている動画は見ていましたが、memeplex立ち上げられた裏側にはこんな苦労があったのかと驚きました。清水さん（shi3z）すごいです。

mimicの中の人対談

まっくすさんが対談されている動画が昨日公開されたようです。
30分程度の動画なので時間あるときに見ます。楽しみ。

DALL・E2で本の表紙を作成した人現る。

https://www.reddit.com/r/dalle2/comments/xbqqi7/used_dalle_2_to_create_a_new_cover_to_my_book_ive/

勉強

DeepLearingを学ぶ

Emadさんが紹介されてたサイト。かなり良さそうなのでメモ。

BrainPad社のデータサイエンティスト有志メンバーの解説

最後に

最初、stable diffusionのnote書いた時はプロンプトエンジニアになる！と意気込んでいましたが、その思いは変わりません。ただ、重要なのはパラーメーターや細かいプロンプト芸は、プロンプトを他のAIでもっと分かりやすく置き換える研究を見たことがありますし、AIごとで結構変わったりしますし、どんどんデータセットも変わったりして、あまりテンプレのように覚えるのは意味がないと思っています。プロンプトエンジニアの闘いどころは「どれだけ概念を知っているか」「すぐに利用できるか（慣れ）」というところになる気がしています。

少なくない研究者は知ってることですが，パラメータチューニング職人は，際限なく時間を溶かしてしまう中毒性があるくせに専門技術がほとんど身に付かないという危険極まりない職業です． https://t.co/rF8Gns0LHX
— Umepon (@shunji_umetani) September 1, 2022

パラメータチューニングで試行錯誤を繰り返した後に，ソフトウェアの内部原理を理解しようと勉強を始めればOKなんですが，なかなかそうはならない・・・
— Umepon (@shunji_umetani) September 1, 2022

Twitterに、毎日製作したものや、最新情報、検証を載せています。よかったらフォローしていただけますと幸いです。

https://twitter.com/Yamkaz

前回の号はこちら

次の号はこちら

サポートいただけると喜びます。本を読むのが好きなので、いただいたものはそこに使わせていただきます

日刊 画像生成AI (2022年9月12日)

開発