見出し画像

日刊 画像生成AI (2022年9月4日)

画像生成AI界は、今認識できないスピードで進化をし続けています。
DALL・E2公開、Midjourney公開、StableDiffusionがオープンソースで公開されて..進化の速度が上がり続けており、日々異常なスピードで変化しています。

"変化が早すぎて理解ができないAI"

そんな中、毎日時間なくて全然情報追えない..!って人のために業界変化、新表現、思考、問題、技術を毎日あらゆるメディアを調べ、まとめています。


昨日までの投稿はこちら
(いいねくれるとやる気がでます。どんどん見てくれる人増えて嬉しい。)


開発

Optimized Stable Diffusion v0.8

最適化されたStable Diffusionです。10GBVRAMがこれまで必要でしたが、512x512のイメージ生成に2.86GBのVRAMしか必要じゃなくなりました。また、8GBのVRAMで1280x576、1024x704のイメージ生成ができるようです。速度は影響を受けないそうです。
自分で組み込むの面倒だからDeforumに組み込まれないかな。


1984x512とかいけてるっぽい?やば

https://www.reddit.com/r/StableDiffusion/comments/x5hh78/1984x512_my_new_optimized_fork/


Stable Diffusion for Kirita Outpainting実装

Kiritaはデジタル ペインティングと2D アニメーション用で、3日前くらいにリリースされました。KiritaはMacにも入れれます。

https://www.reddit.com/r/StableDiffusion/comments/x4wtt0/outpainting_with_my_krita_plugin_for_stable/


Webカメラと接続(Stable Diffusion)

リアルタイムの3倍の遅さらしいですが、こういうことが可能みたいです。


Houdini × Stable Diffusion


無料AI画像生成サービス memeplex seed機能追加

日本初なのと、Shi3zさんがやられているので紹介。機能が続々追加されているようです。


Improve Diffuser Pipeline

あとこれもメモ。深津さんがメモリ使用量をかなり削減するためのコードを作成。Optimized Stable Diffusionと同じ仕組みでなければ組み込んだら相当なメモリ削減に繋がるかもしれません


Docker + Stable Diffusion + streamlit

streamlitというWebフロントエンドが簡単に作れるPythonライブラリでStable Diffusionを使えるようにした人が現れました。


表現


人気キャラクター × GTA風

これ系は流行っていますね。毎日見る気がしています。しかもいつもかなり伸びてますね。

https://www.reddit.com/r/StableDiffusion/comments/x4kl62/breaking_bad_better_call_saul_grand_theft_auto/


パターン拡大

Outpaintingは、パターンの複製、巨大化に最適ですね。ただDALL・E2は現状どうしても筆っぽい質感になってしまうであったり歪みが入ってしまうので実用できるのはイラスト業界ぐらい。ここが一気に改善されれば業界が変わると思います。

https://www.reddit.com/r/dalle2/comments/x4sb98/a_little_outpainting_test/


意外な外側

Outpaintingを使えば、実は外側こんなんだったよ!みたいな面白画像が沢山作れちゃいますね。いいねは少なかったですがいい事例としていくつかピック。

https://www.reddit.com/r/dalle2/comments/x54rqo/ridin_dirty/
https://www.reddit.com/r/dalle2/comments/x5776d/outpainting_the_persistence_of_memory_by_salvador/

僕の方でもいくつかやっています。


特殊縦長画像

Outpainting使えば、いろんな世界を組み合わせた特殊な縦長画像とか作れちゃうよねって思いました。


Stable Diffusionでの動画生成

見かけることが日本でも増えてきましたね。音楽と一緒に動いてる動画を見るのはとても素敵です。


Midjourneyの顔のレベルかなり高い。
(testp, creativeなどのコマンド現在開放中)


研究


Sampler比較

Sampler比較は過去にもありましたね、こちら。Samplerの詳しい説明などももうすぐ投稿する予定なので見ていてください。k_eulerがよさそうで使ってる。

https://www.reddit.com/r/StableDiffusion/comments/x4zs1r/comparison_between_different_samplers_in_stable/


デッサン、クロッキーできる人はimg2img強い

木炭スケッチをstable diffusion img2imgで写真に変えている事例。


思想・ムーブメント


Midjourneyでグラフィックノベルを制作し、Amazonベストセラーリストに掲載された人登場

いやー現状プロンプトの指定技術さえあればできますからね、Twitterで1度漫画を作った方がかなり伸びてましたが、実際に販売してベストセラーリストに載ってるのはかなりすごいですね。それくらい成立していないといけないと思うので。

https://www.reddit.com/r/midjourney/comments/x4kk0r/i_created_a_graphic_novel_using_mj_and_now_its_on/

無料ランキングでしたが、すごいです。ドクターフーとかブレードランナーより上なんですね。


DALL・E2がアーティストや写真家の労力を保障せず稼いでいることを問題視。

Redditで1.1kと伸びています。既に何度も議論に上がっている話題だと思いますが、アーティストもデザイナーもあらゆるクリエイターは誰かからインスピレーションがないとなかなかいいと思われるものは出せないと思うので、ここはそのまんま同じものが出ないようにするとかマナーが生まれるという感じではないでしょうか。


私たちは全ての国のバリエーションを構築する予定

今現状データセットは海外の寄りなのですが、これがおそらくこれらの投稿のスレッドを読む限り、それぞれの国に合わせた微調整(fine-tuning)がされて、親のStable Diffusionに統合される..?という説がありそうな議論をしていますね。まだ読みきれていないですがおそらく..ちょっと後でちゃんとここ理解して書きます。

この辺り理解できるエンジニアの方、この業界にある方繋がったり、直接お話ししたいです。情報交換、これからのことについて日本ユーザー同士で議論したい。


最後に


今日も議論や、研究、開発が進んでいますね。気付いてない部分でもっと研究されている方々がいると思うのでもうちょっと深ぼってチェックしたいです。(この辺り情報足りてないとかありましたら、指摘してください。その部分も追って入れておきます)

Twitterに、毎日製作したアートや、最新情報、検証を載せているのでよかったらフォローしてね
https://twitter.com/Yamkaz



サポートいただけると喜びます。本を読むのが好きなので、いただいたものはそこに使わせていただきます