見出し画像

日刊 画像生成AI (2022年9月16日)

画像生成AI界は、今認識できないスピードで進化をし続けています。
DALL・E2公開、Midjourney公開、StableDiffusionがオープンソースで公開されて..進化の速度が上がり続けており、日々異常なスピードで変化しています。

"可能性の塊"

そんな中、毎日時間なくて全然情報追えない..!って人のために業界変化、新表現、思考、問題、技術を毎日あらゆるメディアを調べ、まとめています。


最近色んな有名な方がシェアしてくれるようになってきました。
からあげさんも見てくれているみたいで嬉しいです。


昨日までの投稿はこちら


開発


CanvaがStableDiffusion統合

無料で使用できるオンライン グラフィック デザイン ツールのCanva。そこにStalbe Diffusionが統合されたようです。


深津さん、Stable Diffusionが使えるFigmaプラグイン開発

文字から生成、画像から生成、ペイントブラシで修正、タイリング、バリエーションモード、Figmaのオブジェクトの読み込みをサポートしており、あらゆる機能が実装されているようです。しばらくしたらnoteでリリースしてくれそう。公開が楽しみ。


Krea.aiがアップデート

お気に入りのプロンプトを保存したり、プロンプトを単語ごとに押して検索もできたりしています。お気に入りもできて、このデザインの良さ的にLexica.artよりかなりいい感じになってきてますね。

ちなみにKrea.aiはモディファイアも選びたりして、かなり高度です。


画像の分類と生成を促進する新しい最先端のオープン CLIP モデルのリリース

LAIONが、openaiのCLIPの結果を異なるサイズのモデルで再現し、さらに大きなモデルを学習させました。これは、モデルのテキストエンコーディング部分が改善できることを意味するようで、データセットの並べ替えとラベル付けが改善され、より高品質のモデルトレーニングにつながるようです。(情報源)この大型Clipを搭載したSatble Diffusionが今後出るはずです。(1.6v..?)


WebUIに新機能搭載

僕も認識していなかったんですが、いつもまにかこのような機能が搭載されているようです。微調整できるかなりいい機能ですね。


Compositional Diffusion Models実装

https://www.reddit.com/r/StableDiffusion/comments/xf5jow/compositional_diffusion/

この技術は、以下の論文を元にしており、潜在空間における2つのプロンプトの間にある条件を生成するのではなく、複数のプロンプトを同時に条件とすることにより、両方のプロンプトを同時に満足する画像を生成するものらしい。例えば、バラクオバマとジョーバイデンを混ぜたいならこう書けばよいとのこと。

"A photo of Barack Obama :: A photo of Joe Biden"


表現


ネスレ「ラ・ライティエール」のOutpainting

ネスレ「ラ・ライティエール」によって、AIでフェルメールの名画の先にあるものを想像したらという作品が伸びていました。広告として使われる事例は今後出てきそう。


MISSING IN THE WOODS

あぶぶさんがRedditやニコニコで作品を投稿されてました。ホラー系で極められたものは見たことがなかったので面白いです。

https://www.reddit.com/r/StableDiffusion/comments/xez7cw/missing_in_the_woods/


StableDiffusionアニメーションセレクト

WeavingWithAIさん、いつも素晴らしい作品作られているのでおすすめです。


文字のStable Diffusionアニメーション

みかぶるさんの検証が面白かったのでメモ。文字表現は面白くて、何かできそうですね。


逆にドットに戻す。

ピクセルから、リアルへ投稿が目立ちますが、最近はローポリにしたり、ドットにしたり逆にするのが増えてきてますね。

prompt (webui by automatic1111のみ):
insert_character_name_or_description_here, (((pixel art))), pixiv,((nes)), pixel perfect, prerendered graphics
Sampling steps: 50
Sampling method: Euler a (still not sure this makes a huge difference)
CFG scale: 7
Denoising strength: Usually around 0.6

https://www.reddit.com/r/StableDiffusion/comments/xfcu2l/reverting_modern_games_back_to_vga_graphics/


フライドチキンでできたチキン

Redditで伸びていたのでメモ。

https://www.reddit.com/r/StableDiffusion/comments/xfp6ny/a_chicken_made_of_fried_chicken/


研究


高坂さんの研究


サイズ比較表

サイズを上げていけばクオリティが自ずと上がるのが分かるいい例ですね、768のクオリティはかなり高いです。

https://twitter.com/DiffusionPics/status/1570740983763025920/photo/1


思想 & ムーブメント


「Impossible Villains」販売

Redditで悪役シリーズを投稿している方が投稿している作品をAmazonに出版されました。価格は$9.66。面白そう。


Andrew Ngさんのブログ

Baiduの元チーフサイエンティスト、Google Brainの共同設立者でコンピュータ科学者のAndrew Ngがブログを書かれていました。メモ。


AIツールは建築家とそのクライアントが新しい建築を設計するのに実際に役立っているそうです。


勉強


Vision Transformer入門

エンジニア界隈の方々が購入してたので、僕も買いました。
めちゃめちゃ楽しみ。


最後に


Twitterに、毎日製作したものや、最新情報、検証を載せたりしています。よかったらフォローしてくれるとうれしいです。昨日も告知しましたがこれを進めています。待っててください!


前回の号はこちら

次の号はこちら


サポートいただけると喜びます。本を読むのが好きなので、いただいたものはそこに使わせていただきます