日刊画像生成AI (2022年9月27日)

2022年9月30日 22:54

画像生成AI界は、今認識できないスピードで進化をし続けています。
DALL・E2公開、Midjourney公開、StableDiffusionがオープンソースで公開されて..進化の速度が上がり続けており、日々異常なスピードで変化しています。

そんな中、毎日時間なくて全然情報追えない..！って人のために業界変化、新表現、思考、問題、技術を毎日あらゆるメディアを調べ、まとめています。

いつも見てくださっている方ごめんなさい！
しばらく2日間の時間差投稿になっててます。

昨日までの投稿はこちら

開発

DreamBoothが一気にcolabで利用できるレベルに進化。

DreamBoothは24GBのVRAM18GBのVRAMで実行可能になったと思ったら、12.5GB VRAMで動くように改良されました。つまり、Google Colabで動作するようになりました。（DreamBoothは、モデルにすでにある知識をすべて台無しにせず、新しい一貫した知識を与えられる方法です）

24GBの方はこちら。

18GBの方はこちら。

12.5GB VRAM（google colabで動く方）の方はこちら。
（ただこちらうまく動作しないという話を聞いていたので、うまく動かない場合すみません。多すぎて最もうまく動作するものが不明なので、お聞きしたい..。）

npakaさん（布留川さん）がGPU 16GBで動くDreamBooth実装を使用されるプロセスについてまとめられていますので是非。

Stable Diffusion for Photoshop 0.3.0v

ドキュメント全体のimg2imgと、inpainting機能が追加で搭載されました。これであとはローカルのStable Diffusionで軽量に動作するようになればかなり普及するかと思われます。フォトバッシュワークフローがかなりやりやすくなると思います。

The new version of the @StableDiffusion plugin for @Photoshop brings in-painting (masking) and layer-based img2img. Download it for free here:https://t.co/gqFWpABQLY pic.twitter.com/zMvq93WI8o
— Christian Cantrell (@cantrell) September 26, 2022

Composable Diffusion

これは素晴らしい進化。現状の普及してる画像生成AIモデルは2つのオブジェクトを綺麗に分離して生成できないことが多く、下絵を描いて、img2imgするのを繰り返す、フォトバッシュワークフローが必要です。Composable Diffusionは文章の定義をうまく反映してくれるようです。もしかしたらそういうワークフローもかなり必要なくなっていくかもしれません。

Stable Diffusion WebUI (by AUTOMATIC1111)の今週の新機能一覧

全てこちらのページにまとまっているようです。
ひたすらアップデートが繰り返されているようです。

Lama Cleaner

SOTA AI モデルを利用した無料のオープンソースinpaintingツールが公開。

https://www.reddit.com/r/StableDiffusion/comments/xphsk9/open_source_stable_diffusion_inpainting_tool/

Dezgo V2

https://t.co/Kn9VLq4gW9 V2 is live!
New:
🖼️ image2image mode, with "strength" parameter
🎨 redesigned dark-mode UI
✨ new sampler#stablediffusion #AIArtwork #AiArt
— Dezgo (@dezgo) September 27, 2022

Gradioが3.4にアップグレード

StableDiffusion WebUIなどのSD改良版で認知度がかなり上がっと思うのですがGradioがアップグレードしました。主に今回の画像生成の流れに乗ったアップデートな感じがします。詳細は以下に記載。

Gradio 3.4 is out 🔥

🖼️ Gallery component supports captions
🔢 Slider component supports typeable values!
🎨 Much better sketching/inpainting support

𝚙𝚒𝚙 𝚒𝚗𝚜𝚝𝚊𝚕𝚕 --𝚞𝚙𝚐𝚛𝚊𝚍𝚎 𝚐𝚛𝚊𝚍𝚒𝚘https://t.co/ItuOFB2jqR pic.twitter.com/PFhAJLYO3F
— Gradio (@Gradio) September 27, 2022

HuggingfaceでSDのInpaintingが試せる、「Stable Diffusion Multi Inpainting Spaces」が公開。

The Stable Diffusion Multi Inpainting Spaces is out!

On it you can do both: Inpainting by masking the image (with the newest @Gradio masking) or inpainting with words, your choice!https://t.co/SAnJXS4cS0 pic.twitter.com/pnvTnOqw9l
— apolinário from multimodal ai art (@multimodalart) September 27, 2022

Joe PennaさんのDreamBooth

200万人以上の登録者がいるyoutuberで、映画製作者のJoe PennaさんがDreamBoothを改良（複数人で）。人々の顔をトレーニングするために、@XavierXiao のリポジトリに多くの変更を加えたそうです。

People in Hollywood are so vain.

So self-centered.

Most offices I walk into just have posters of their own movies on the walls!

Instead, I'm gonna print these classic moments out -- to inspire my next films.

A thread of just images (1/5) pic.twitter.com/9Qz3AmBMRQ
— Joe Penna (@MysteryGuitarM) September 17, 2022

表現

死んだ有名人が生きていたら..

How dead celebrities would look today with artificial intelligence

I can't stop staring at these...

Don't tell me AI isn't going to change the world:
— GREG ISENBERG (@gregisenberg) September 27, 2022

John Lennon pic.twitter.com/jD3nly8j8J
— GREG ISENBERG (@gregisenberg) September 27, 2022

Michael Jackson pic.twitter.com/uw9aKo9ruc
— GREG ISENBERG (@gregisenberg) September 27, 2022

Freddie Mercury pic.twitter.com/Hg6Il2RlD1
— GREG ISENBERG (@gregisenberg) September 27, 2022

ピザボール

https://www.reddit.com/r/midjourney/comments/xpd0mz/pizza_ball_prompt_in_comments/

prompt:
pizza sphere Ray tracing, high definition, detailed textures, professional photography, soft lighting, food presentation --q 2
seed: 16094

ゾウの赤ちゃんと猫のミックス

https://www.reddit.com/r/dalle2/comments/xpdmji/baby_elephant_and_cat_mix/

Saito Akiraさんの検証

#StableDiffusion でOutPaintingを実装し横長画像を生成。Boosting Monocular Depth Estimation Models to High-Resolution via Content-Adaptive Multi-Resolution Mergingでデプスを求め #Houdini で立体化。

8枚の512^2の画像を2K^2に超解像し1k^2にダウンサンプリングしたあと、横に繋いで8k*1kに pic.twitter.com/rKcP827qC7
— Akira Saito (@a_saito) September 27, 2022

ジブリバニー

動画からジブリ風アニメを生成している事例。製作者本人は「1フレーム抜き出した」と言われているので、おそらくEBsynthで作られているものかと思われます。

https://www.reddit.com/r/StableDiffusion/comments/xosmnx/ghibli_bunny/

研究

長い呪文の後半は本当に切り捨てられる？「,」を削っても変わらない？

ISIDの比嘉さんのブログ。からあげさんの75個のトークンを超えるプロンプトに関しては切り捨てられるという記事を基に検証されています。記事内では、実際に検証されて、75個のトークンをはみ出したものは切り捨てられるということ、呪文を圧縮するテクニックとして、カンマ（、）を削ることが有効であること（削っても変わらない。）という衝撃の事実が検証されています。

Greg rutkowskiが使えないなら、Darek Zabrockiだ！

Midjourney、Stable Diffusionで最も多く使われているプロンプトの一つ、「greg rutkowski」というアーティストの方がいます。彼は「A.I.は存命中のアーティストをデータベースから除外し、代わりに "パブリックドメイン下の作品に焦点を当てるべきだ」とも述べており、自分の似たスタイルで大量のアートが生成されることで引き起こされたことがこちらのニュースにまとめられています。

そこで「Greg rutkowski」ではなく、「Darek Zabrocki」という存在しないがGregと似た名前のアーティストを入力すればなんとなく、彼のスタイルに似てるけど違うものが出るという話。めちゃめちゃ面白くないですか？
彼も同じポーランド人だし、彼は架空の人物なので何も言わないという..
なるほど..。

https://www.reddit.com/r/StableDiffusion/comments/xos04b/you_dont_want_to_rutkowski_i_got_you_cover/

他にも、「Beksinski」「Gerfonso Zalopskins」はいい結果を出すとのこと。
そうなんですよね..日本人の名前とか、プロフィール文を適当に入れたらプロフィールの顔っぽいのが出てくるように、名前も少し変えたら若干違うものが出てくるという..。人間の芸術の歴史がこれから超圧縮されていく感覚..。もうここから先のアートの歴史は歴史は追えないかも知れません。

AIに自分の個人情報を伝えてみました。 pic.twitter.com/6WKJiECvQf
— 根本。(ちんちんバスターズ) (@nemotossw) September 25, 2022

「BigCode」プロジェクト

コード用の最先端の大規模言語モデルを開発する「BigCode」プロジェクトが始まる。最初の目標はデータセットの開発と公開。それを使用して150億パラメータのモデルを開発するらしい。ちなみにパラメータ数はOpenAIのCodexが120億個で、DeepMindのAlphaCodeが414億個https://t.co/07ZsSMSS7W
— 小猫遊りょう（たかにゃし・りょう） (@jaguring1) September 27, 2022

WebUI (by AUTOMATIC1111) の CodeFormer "restore faces"がかなりいいらしいです。

WebUIにある「restore faces」がかなりいいらしいです。目線はどうしても変わったりしてしまうようですが、Codeformerすごいですね。WebUI使ってる方は必見。

https://www.reddit.com/r/StableDiffusion/comments/xoz3zw/codeformer_restore_faces_option_in_automatic1111/

マージモデルの比較

tomo-makesさんの技術的にどういう仕組みか解説されているツイートで知りました。septendecさんのマージモデルの比較。

#stablediffusion のmerge modelを初めて知りました。

SDと各fine-tuningしたモデル (Waifu Diffusion, Trinart)のU-Netの重みを加重平均するというシンプルなものながら、画風を混ぜられているように見え面白い。3記事にわたり実験されています。

Python実装はここ: https://t.co/TShEz6r8xi https://t.co/4m0tMrg0d1
— tomo-makes | 技術書典13 『機械学習の炊いたん６。』 (@tomo_makes) September 27, 2022

思想・ムーブメント

GUIの終焉

魔法のAI動画編集ツールを開発しているRunwayのCEOのCristóbal Valenzuelaさんが将来の仮説を話されています。

自然言語があらゆるソフトウェアアプリケーションの基本インターフェースになることは、GUIの終焉を意味するかもしれない

Natural language becoming the fundamental interface for every software application might mean the end of GUIs
— Cristóbal Valenzuela (@c_valenzuelab) September 26, 2022

学習データをトリミングしないことで大きく変わる..？

Cohesive uncroppingは、様々なstablediffusionのUIが取り組むべき、今最も重要な機能でしょう。Low hanging fruit（大した努力をしなくとも達成できる目標）。多くの画像は、トリミングをしないことが可能にするほんの少しの構図の調整で、使い物にならない状態から素晴らしい状態にすることができます。

Cohesive uncropping is probably the most important feature right now that all of the various #stablediffusion UIs need to tackle. Low hanging fruit. So many images can go from not usable to incredible with just a few compositional tweaks that uncropping makes possible.
— Douglas Bonneville (@dbonneville) September 26, 2022

画像生成AIが描いた「主人公が実在する女優そっくり」なコミックが著作権を取得する

最後に

Twitterに、毎日製作したものや、最新情報、検証を載せたりしています。よかったらフォローしてくれるとうれしいです。

Tweets by Yamkaz

画像生成AIの実験, 最新情報のまとめはこちら

前回の号はこちら

次の号はこちら

サポートいただけると喜びます。本を読むのが好きなので、いただいたものはそこに使わせていただきます

日刊 画像生成AI (2022年9月27日)

開発