見出し画像

日刊 画像生成AI (2022年9月11日)

画像生成AI界は、今認識できないスピードで進化をし続けています。
DALL・E2公開、Midjourney公開、StableDiffusionがオープンソースで公開されて..進化の速度が上がり続けており、日々異常なスピードで変化しています。

"Stable Diffusionの誕生。影響は広がり続ける"

そんな中、毎日時間なくて全然情報追えない..!って人のために業界変化、新表現、思考、問題、技術を毎日あらゆるメディアを調べ、まとめています。


昨日までの投稿はこちら
(最近読者さんが増えてきたのか、いいねが安定してきて嬉しいです。お役に立てて嬉しいです。)


開発


Stable Diffusion Windows GUI - 0.8 Release

Windows GUIが0.8にアップデートされたようです。なかなか機能が豊富なようです。僕は特にプロンプトタブが気になっています。著者はMBP M1 Maxなのですぐ使えず悔しい。

プロンプトタブとかあるらしい。めっちゃいいな。


Craiyon スマホ版公開

人気のオープンソースDALL・E Miniモデルを作ったCraiyonが、スマホアプリで登場。アプリにすると何かいいことがあるのでしょうか..?Webでも使えるのであまり分かってはいません。


Stable Diffusionの Inpainting機能を簡単に試せる「Inpainter」登場。

Stable Diffusionの改造で生まれた「inpainting」機能。それを気軽に試せるWebアプリが登場しました。UIもシンプルで素晴らしいです。僕の方でも使用してみました。

猫がアイスクリーム食べてる状態を生成。
そして、目だけ黒く塗りつぶして…、「メガネをかけている」とpromptに追加。
メガネかけれた。かわいい。いや目何これ


Stable Diffusion Conceptualizer登場 (colab)

textual inversionでトレーニングされた概念を用いて色々作れるcolab。動画を見る限り、例えば<poolrooms>とか、<hours>とか入れれば学習済みの概念を利用できるようですね。複数利用も可能っぽい。これは楽しそう。
この機能もあらゆるプラグインや、サービスに含まれていきそう。

https://www.reddit.com/r/StableDiffusion/comments/xb76bm/stable_diffusion_conceptualizer_browse_a_library/

colabはこちら。


Stable Diffusion Concept Library続々増える

textual inversionで作られたデータが大量にアップされてきてます。一昨日まで70個くらいじゃなかった..? 今163個あります。上のStable Diffusion Conceptualizerで使って遊びましょう。


"Prompt-to-Prompt Image Editing with Cross Attention Control"非公式実装

個人的に気になっていた「Prompt-to-Prompt Image Editing with Cross Attention Control」の論文を非公式で実装した方が現れました。さすが。
すっごく簡単に説明しますと、現状少しプロンプトを変えただけでも生成画像ってかなり変わっちゃうのが、この技術を使えばそうならないというもの。これは現状Inpaintingというマスクをつけて、そこを置き換えるという技法やimg2imgでなんとかされていますが、それをプロンプトの編集だけでよくしちゃうというもの。いや素晴らしい。プロンプトエンジニアリングは操作方法とかは全て技術としては価値がなくなり、割と操作する側が概念をどれだけ知ってるかっていうことに集約しそう。


表現


メガネだけ固定したWarp Diffusion

かなり面白い作品登場。img2imgでメガネ部分だけ与えて、固定してるのでしょうか..?それか全体的になんとなくこういうラフのimg2imgを与えて制作しているのか分かりませんが、このような動画が作れることが分かりましたね。


北斎アートの続き

DALLE2のOutpaintingで作られた北斎アートの続きが伸びていたのでメモ。
出た当初は盛り上がりましたが、DALLE2は正方形でしかOutpaintingできないので、Stable Diffusionの改造版にクオリティは劣る印象があります。

https://www.reddit.com/r/dalle2/comments/xaoy90/the_great_wave_off_kanagawa_continuation


無限に続くOutpainting

Outpaintingを使えば、いくら離れても無限に続く絵がこれまで以上の解像度で、簡単に作れちゃいますね。これはDALL・E2の事例なので制作が大変そうですが、Stable Diffusionならとても簡単に作れそうです。

https://www.reddit.com/r/dalle2/comments/xbgynq/i_doubled_the_pixels_59_times_and_pressed_it_into/


研究


Waifu Diffusion 検証続々

一昨日〜昨日はかなりWaifu Diffusionの検証の投稿を見かけることが多く、生成物を確認していましたが..クオリティがかなり高かったのでメモ。いや..クオリティやばい。

あと、何やら限定の呪文があるそう..気になる。どうやら、waifudiffusionはDanbooruの画像とタグを学習しているので、そこでのタグが有効なようです。


Trinart検証続々

Triartの検証も続々増えてきています。こちらもとにかくえぐすぎる。WaifuもTrinartもどちらもかなりエグいクオリティを叩き出してきています。

Trinartのcolabはこちら。
こちらはとりんさまアートv2モデルというものをおそらく使用されています。

あと二人とかでも精度高いみたい。すごいな..


Stable Diffusion Outpainting作品

DALL・E2と比較するために同じ状態のものを生成されている。ほぼ劣らぬクオリティ。操作性や、密度のことを考えると圧倒的にStable Diffusionの勝利という感じですね。

https://www.reddit.com/r/StableDiffusion/comments/xb4jr5/outpainted_in_stable_diffusion/


現時点でのそれぞれの画像生成AIの違いを分かりやすく紹介

tomo-makesさんがとても分かりやすくまとめてくださっているのでメモ。分かりやすい!これは嬉しいですね。


思想・ムーブメント


将棋の世界の話

こういうことが今後色々な業界で本当に数年で発生していきそう。そのためにどう動くのか考えなければいけないと思います。


AIはソフトウェア産業を飲み込む。

Runwayのようにテキスト入力しただけで動画編集できるようなサービスが今後あらゆる領域でどんどん出てくるはずです。それはもうすぐ音声インターフェースに含まれて、過去に言われていた「VUI(ボイスユーザーインターフェース)」の時代が訪れそうです。

Google Ventureでは、10年前、AIを活用した企業を検索しても、空振りでした。それが変わったのです。AIはソフトウェア企業を食い物にしようとしています。なぜなら、AIは全く新しいUXを生み出し、既存企業はその製品を壊さずに採用することができないからです。10年のハイパーサイクルが始まったばかりです。


最後に


もうないかなぁ..と思ってたらどかどか更新され続けるこの業界、刺激が多すぎて楽しいです。一体どこまで更新されるのか本当にワクワクが止まりませんね。

Twitterに、毎日製作したものや、最新情報、検証を載せています。よかったらフォローしていただけますと幸いです。

https://twitter.com/Yamkaz



昨日の号はこちら

次の号はこちら


サポートいただけると喜びます。本を読むのが好きなので、いただいたものはそこに使わせていただきます