日刊画像生成AI (2022年9月16日)

2022年9月17日 22:30

画像生成AI界は、今認識できないスピードで進化をし続けています。
DALL・E2公開、Midjourney公開、StableDiffusionがオープンソースで公開されて..進化の速度が上がり続けており、日々異常なスピードで変化しています。

そんな中、毎日時間なくて全然情報追えない..！って人のために業界変化、新表現、思考、問題、技術を毎日あらゆるメディアを調べ、まとめています。

最近色んな有名な方がシェアしてくれるようになってきました。
からあげさんも見てくれているみたいで嬉しいです。

日刊でこれだけ話題あるのヤバいですね https://t.co/KqfnJAPVVz
— からあげ (@karaage0703) September 15, 2022

昨日までの投稿はこちら

開発

CanvaがStableDiffusion統合

無料で使用できるオンライングラフィックデザインツールのCanva。そこにStalbe Diffusionが統合されたようです。

😍 Text to Image has launched on Canva! Grab something from your imagination, type a simple description and turn it into a professional photo, or create a 3D image in seconds.

Experience the magic ✨ https://t.co/U2Ss5gbYu0 #CanvaCreate
— Canva (@canva) September 14, 2022

深津さん、Stable Diffusionが使えるFigmaプラグイン開発

文字から生成、画像から生成、ペイントブラシで修正、タイリング、バリエーションモード、Figmaのオブジェクトの読み込みをサポートしており、あらゆる機能が実装されているようです。しばらくしたらnoteでリリースしてくれそう。公開が楽しみ。

Making StableDiffusion on Figma with painting UI.
supports txt2txt, img2img, painting, tiling, variation mode. Also support transfer image from figma canvas. Really powerful. :-)
The only problem is my GPU cost.#stablediffusion #figma pic.twitter.com/MQlc6GVFcE
— 深津貴之 / THE GUILD / note.com (@fladdict) September 16, 2022

Krea.aiがアップデート

お気に入りのプロンプトを保存したり、プロンプトを単語ごとに押して検索もできたりしています。お気に入りもできて、このデザインの良さ的にLexica.artよりかなりいい感じになってきてますね。

explore millions of great prompts ✨

🫶 save prompts you love.
🗃️ create collections of prompts
🤖 AI-powered image search.

out now at https://t.co/V31Uw5b10E pic.twitter.com/KZNpUjMZY4
— KREA AI (@krea_ai) September 16, 2022

ちなみにKrea.aiはモディファイアも選びたりして、かなり高度です。

画像の分類と生成を促進する新しい最先端のオープン CLIP モデルのリリース

LAIONが、openaiのCLIPの結果を異なるサイズのモデルで再現し、さらに大きなモデルを学習させました。これは、モデルのテキストエンコーディング部分が改善できることを意味するようで、データセットの並べ替えとラベル付けが改善され、より高品質のモデルトレーニングにつながるようです。（情報源）この大型Clipを搭載したSatble Diffusionが今後出るはずです。（1.6v..？）

Happy to announce the release of new state of the art open CLIP models to drive image classification and generation forward@OpenAI’s release of the smaller CLIP models catalysed AI image gen as @advadnoun, @RiversHaveWings combined it with gen models 1/https://t.co/SU5h99n5ag
— Emad (@EMostaque) September 15, 2022

Guiding Stable Diffusion with our CLIP H: "Professional HDR photo of a polar bear holding a lollipop on a rooftop in Hong Kong looking up at a UFO in the night sky. A UFO flies above the polar bear. The polar bear holds a lollipop on a rooftop. The background shows Hong Kong." pic.twitter.com/ObFz9WklwX
— LAION (@laion_ai) September 15, 2022

WebUIに新機能搭載

僕も認識していなかったんですが、いつもまにかこのような機能が搭載されているようです。微調整できるかなりいい機能ですね。

#stablediffusion #WaifuDiffusion
AUTOMATIC1111版にまた知らないやべぇ機能が盛り込まれてる・・・
[from:to:when]で指定することでStepの途中でプロンプトをfromの単語からtoの単語に入れ替えることで混ぜ合わせる事ができる機能っぽい。whenはどの程度のstepで切り替えるかの割合。 pic.twitter.com/3goYLFvJfa
— harulu🜸Unicorn (@harulu_t2) September 16, 2022

Q.つまり何が出来るってことだってばよ？
A.微妙な混ぜ合わせによる出力結果の調整が出来るようになり、望む結果に近づけやすくなった。例に上げた画像で言えば、[kawaii girl:little girl:0.75]は可愛い少女75%+幼女25%みたいな指定。
— harulu🜸Unicorn (@harulu_t2) September 16, 2022

Compositional Diffusion Models実装

https://www.reddit.com/r/StableDiffusion/comments/xf5jow/compositional_diffusion/

この技術は、以下の論文を元にしており、潜在空間における2つのプロンプトの間にある条件を生成するのではなく、複数のプロンプトを同時に条件とすることにより、両方のプロンプトを同時に満足する画像を生成するものらしい。例えば、バラクオバマとジョーバイデンを混ぜたいならこう書けばよいとのこと。

"A photo of Barack Obama :: A photo of Joe Biden"

表現

ネスレ「ラ・ライティエール」のOutpainting

ネスレ「ラ・ライティエール」によって、AIでフェルメールの名画の先にあるものを想像したらという作品が伸びていました。広告として使われる事例は今後出てきそう。

Quand La Laitière de Nestlé utilise l'IA pour imaginer ce qu'il y a au-delà du célèbre tableau de Vermeer pic.twitter.com/hczSEBsAhq
— Creapills 💊 (@creapills) September 15, 2022

MISSING IN THE WOODS

あぶぶさんがRedditやニコニコで作品を投稿されてました。ホラー系で極められたものは見たことがなかったので面白いです。

https://www.reddit.com/r/StableDiffusion/comments/xez7cw/missing_in_the_woods/

StableDiffusionアニメーションセレクト

WeavingWithAIさん、いつも素晴らしい作品作られているのでおすすめです。

Experimenting with storytelling ... #aivideo #stablediffusion #AIart #aiartcommunity pic.twitter.com/TM0HldUH1G
— WeavingWithAI (@GanWeaving) September 16, 2022

A variation of the previous one ... like the style but less coherent ... need to play with the parameters #stablediffusion #aivideo pic.twitter.com/l6yLrGHmX9
— WeavingWithAI (@GanWeaving) September 16, 2022

This is for day 15 of #septembAIr

"Quasar"

A bit of a tribute to my fine art education and background. AI can't reproduce the feel and texture of thick paint on a canvas. Painters will always have a place. ❤️🖌️#animation #stablediffusion #DeforumDiffusion #septembAIr2022 pic.twitter.com/w2dIYfiheu
— Benjamin Scott-Pye (@benscottpye) September 15, 2022

mimetic #stablediffusion #deforum pic.twitter.com/MN8w3tE74e
— Claire Silver 🌸 (@ClaireSilver12) September 16, 2022

文字のStable Diffusionアニメーション

みかぶるさんの検証が面白かったのでメモ。文字表現は面白くて、何かできそうですね。

駅名標のみ pic.twitter.com/1PIykNoUpU
— ͏ ͏みかぶる (@Mikanixonable) September 15, 2022

"0": "station name sign of Hong Kong MTR ",
"20": "Hong Kong Architecture,flicker"
"translation_z": "0:(4)",
"rotation_3d_z": "0:(0.15)",
"strength_schedule": "0:(0.4)",
z軸回転で定期的に破綻が起こって規模間と構図が新陳代謝できていると思う#stablediffusion #deforumdiffusion pic.twitter.com/OeSnf7cZc3
— ͏ ͏みかぶる (@Mikanixonable) September 15, 2022

CJK fontsと入れたのに筆文字となぜか唐突に鳥が出てきた#stablediffusion #deforumdiffusion pic.twitter.com/88WEiPMtBo
— ͏ ͏みかぶる (@Mikanixonable) September 15, 2022

逆にドットに戻す。

ピクセルから、リアルへ投稿が目立ちますが、最近はローポリにしたり、ドットにしたり逆にするのが増えてきてますね。

prompt (webui by automatic1111のみ):
insert_character_name_or_description_here, (((pixel art))), pixiv,((nes)), pixel perfect, prerendered graphics
Sampling steps: 50
Sampling method: Euler a (still not sure this makes a huge difference)
CFG scale: 7
Denoising strength: Usually around 0.6

https://www.reddit.com/r/StableDiffusion/comments/xfcu2l/reverting_modern_games_back_to_vga_graphics/

フライドチキンでできたチキン

Redditで伸びていたのでメモ。

https://www.reddit.com/r/StableDiffusion/comments/xfp6ny/a_chicken_made_of_fried_chicken/

研究

高坂さんの研究

スケッチ1枚からイラストやアニメーション、3Dモデルをリアルタイムに自動生成する実験をしています。
UIのスライダーでパーツの形状や色、質感を変更でき、ランダムな選択も可能です。
クリエイターさんから絵を描いたことがない方まで、創作活動を行う方々をアシストするシステムを目指しています。 pic.twitter.com/CLosSTlk97
— 高坂 (@t_takasaka) September 16, 2022

サイズ比較表

サイズを上げていけばクオリティが自ずと上がるのが分かるいい例ですね、768のクオリティはかなり高いです。

https://twitter.com/DiffusionPics/status/1570740983763025920/photo/1

思想 & ムーブメント

「Impossible Villains」販売

Redditで悪役シリーズを投稿している方が投稿している作品をAmazonに出版されました。価格は$9.66。面白そう。

Andrew Ngさんのブログ

Baiduの元チーフサイエンティスト、Google Brainの共同設立者でコンピュータ科学者のAndrew Ngがブログを書かれていました。メモ。

The open way that Stable Diffusion's image generation model was released -- allowing users to it on their own machines, not just via API -- has made it a landmark event for AI. Kudos to @EMostaque and the @StableDiffusion team! More in The Batch. https://t.co/I6EWYjTfIf
— Andrew Ng (@AndrewYNg) September 15, 2022

AIツールは建築家とそのクライアントが新しい建築を設計するのに実際に役立っているそうです。

勉強

Vision Transformer入門

エンジニア界隈の方々が購入してたので、僕も買いました。
めちゃめちゃ楽しみ。

最後に

Twitterに、毎日製作したものや、最新情報、検証を載せたりしています。よかったらフォローしてくれるとうれしいです。昨日も告知しましたがこれを進めています。待っててください！

「日刊画像生成AI」を毎日書いていて思ったのが、これ使いたいな..見たいな..って思った時にすぐに取り出せない事。今全情報を整理して1つにまとめています。もうすぐ公開します。待っていてください。
— やまかず (@Yamkaz) September 16, 2022

前回の号はこちら

次の号はこちら

サポートいただけると喜びます。本を読むのが好きなので、いただいたものはそこに使わせていただきます

日刊 画像生成AI (2022年9月16日)

開発