日刊 画像生成AI (2022年10月6日)
画像生成AI界は、今認識できないスピードで進化をし続けています。
DALL・E2公開、Midjourney公開、StableDiffusionがオープンソースで公開されて..進化の速度が上がり続けており、日々異常なスピードで変化しています。
そんな中、毎日時間なくて全然情報追えない..!って人のために業界変化、新表現、思考、問題、技術を毎日あらゆるメディアを調べ、まとめています。
昨日までの投稿はこちら
開発
Imagen video
(画像生成AIではないですが近いので紹介。) Google ResearchがテキストからHD動画(1280x768 24fps)を生成する「Imagen Video」を発表。懸念が軽減されるまではモデルやソースは公開しないとのこと。
Text2Filter
AIで写真に色をつけたり、テキスト入力すればそれっぽいフィルターをかけたりもしてくれるpalette.fmが公開されました。
試しに僕がSDで生成した画像を入れてみました。
WebUI by AUTOMATIC1111でAND記法が使えるようになりました。
少し前に公開された、Composable-DiffusionのAND記法(ANDと、AND NOT)が使えるようになったそうです。Composable-Diffusionは複数の拡散モデルを組み合わせて合成的な画像生成を行うアプローチ。
例えばこうなるようです。ANDになるとちゃんと混ざる。
具体的には論文の例を見るのが分かりやすそう。GLIDEでは反映されていないところがちゃんと描画されています。
Waifu Diffusion 1.3完成版
(数日後リリースノートが公開されています。)
ずっとしばらく学習終わるごとにエポックが公開され続けていたのですが、完成したようです。公式公開は10.8。海行さんの投稿で知りましたが、14.6GBのfull-opt版は追加学習させるのに役立つようです。
カスタムハンドモデルが開発中。
約半分の確率で完璧な手が描ける「カスタムハンドモデル」が開発中。
DreamBoothで手を学習したとのこと。より多くの手を学習させて近日公開予定。(調べましたがまだリリースなしです。)
Runwayが事前ライブデモ募集中。
以前話題になったテキストから動画編集をする魔法のAI編集ツール、Runwayが事前リリースをされるようです。こちらから応募できます。一応申請しておきましたがまだ連絡は来ておらずです。早く試したい。
8GB未満のVRAMでDreamBooth, 6GB未満のTextual Inversionが可能に。
最強版 Stable Diffusion for Photoshop
世界初、Photoshopで #stablediffusion のOutpaintingを利用できるプラグインが公開。制作した組織はKrita用Stable Diffusionプラグインも作られている方々。有料だけど機能豊富でなかなか強いです。(10月14日にもう一つのPhotoshop対応SD by Christian Cantrellもローカル対応しました。なので、こちらは有料なのでこっちよりもChristian Cantrellの方がいいですね。)
DreamFusionをStable Diffusionで実装
先週公開されて話題になったテキストから3Dを生成するDreamFusionをStableDiffusionで実装した方がいらっしゃいました。さすが!
試しました。
colabだとTraining_iters15000は4,5時間くらいかかった気がします。
(Twitter埋め込みが2個目の動画見れないのでTwitterで以下の投稿開いてみてみてください。)
Motion Diffusion Modelのコードが公開。
テキストから人間の動きを生成するDiffusionモデルが公開されました。
squarize-images-updated
トレーニングデータの準備の際、不完全なトリミングやアスペクト比になってしまう問題がありますが、こちらのコードは自動でインペイントし、トレーニング用正方形画像にしてくれます。
Stable Diffusion UI (cmdr2) Beta v2.20がリリース
ワンクリックでwindows, linuxにインストールが可能で、簡単で上級者にも対応しているStable Diffusion UI (cmdr2)が2.20をリリース。
このタスクキュー機能、めちゃめちゃ便利ですね。
表現
CoffeeVectors氏の新しい検証
daz3dで作ったモデルにUE5でreal-time hair, clothをつけて(UE畑にいるわけではないので命名とプロセスが間違ってるかもです。)UE5で歩行アニメーションつけて、最後Deforumで作っているとのこと。
ゼルダの実写ポスター (midjourney)
Origami Flower
折り紙の花が開いていく映像。おそらくimg2img、面白かったので紹介。
"Cyber-Shifting"
早いAIアニメーションがなんかよかったので紹介。
研究
NAI Character Setup Tags
NovelAI用のCharactor Creator スプレッドシートというのが公開されていたのでメモ。既存のdanbooruのタググループとはちょっと違うっぽいです。
https://danbooru.donmai.us/wiki_pages/tag_groups
A collection of Stable Diffusion images
https://generrated.com/ はDALL・Eで膨大なプロンプト検証がまとまっているサイトですがこのプロンプトを元にSDで実験をされた方がいるようです。
200 以上のプロンプトスタイル、4000を超える画像が保存されています。
Waifu Diffusionの呪文で利用できるタグ一覧
NovelAIで生成→talking-head-anime-3でVtuber化
NovelAIでラフ絵出力→それを元に絵を生成。
NovelAIでキャラデザ生成
Stable Diffusionをローカル環境のラズパイで動かす方法(苦行)
思想・ムーブメント
AIに本当に脅かされているもうひとつの集団
Deforumアニメーションが得意なWeavingWithAI氏の投稿でいいものがあったのでピックアップ。個人的にこれはずっと思っていること。撮影の圧倒的コストカットと表現多様性と生成スピードがリアルと全然違うので一部の撮影に関してはごっそり無くなりそうという気がしています。
AI絵師騒動
NovelAIが公開されてからAI絵師と名乗る方が増え、それについて様々な議論が起こっています。
(↑ これは意味はないみたいです)
↑ 確かにこういう進化の方向性ありそう。
Waifu Diffusionの中の人、Haru氏かっこいい。
勉強
Stable Diffusionの研究の原点
Stable DiffusionモデルにつながったRunwayとCompVis の研究活動について
DreamFusion解説動画
最後に
Twitterに、毎日製作したものや、最新情報、検証を載せたりしています。
よかったら見ていただけたら嬉しいです。
画像生成AIの実験, 最新情報のまとめはこちら
前回の号はこちら
次の号はこちら
サポートいただけると喜びます。本を読むのが好きなので、いただいたものはそこに使わせていただきます