日刊 画像生成AI (2022年9月13日)
画像生成AI界は、今認識できないスピードで進化をし続けています。
DALL・E2公開、Midjourney公開、StableDiffusionがオープンソースで公開されて..進化の速度が上がり続けており、日々異常なスピードで変化しています。
そんな中、毎日時間なくて全然情報追えない..!って人のために業界変化、新表現、思考、問題、技術を毎日あらゆるメディアを調べ、まとめています。
(暦本さんが発見してくれたみたいで、嬉しいです。)
昨日までの投稿はこちら
開発
Stable Diffusion for Photoshop、なにやらimg2imgを追加するらしいが..
一昨日公開されたDreamStudioAPIを利用したStable Diffusionが使えるPhotoshopプラグイン。開発者の方が今週この機能を実装されるとのこと。よく見ると「use document image」との記載が。レイヤーをimg2imgでそのまま生成できれば大幅な作業短縮になりますし、かなり使いやすくなりますね。
Prompt Parrrot v2.4公開
Prompt Parrotとは自分のプロンプトのリストを入力し、言語モデルを学習し(gpt2を利用)、自分のスタイルのプロンプトが生成できちゃうというもの。v2.4ではサンプラーの選択ができるようになったそうです。
colabはこちら
Prompt2colorpallette
Matt DesLauriersさんが任意のテキストからオリジナルカラーパレットを生成するツールを開発しました。仕組みとしては、gifencという名の JavaScript GIF エンコーダーが、生成画像を分析し、色を特定のセットに量子化。そこでパレット情報を抽出するのだそうです
ローカルでStable Diffusionを利用できる環境+Node.jsが利用できれば使えるとのことです。
CEB Stable Diffusion 0.40 Betaに
Blenderで使えるStable Diffusionアドオン CEB Stable Diffusionが0.40Betaに。おそらくアップスケールできるようになったっぽい。8192x8192までアップスケールとのこと。
ダウンロードはこちら。
Deep Danbooru
これはかなり前から存在しているものなようですが、今Waifu Diffusion、Trinartが流行っているのでメモ。画像からDanbooruタグを推定してくれるようです。これで思い通りの二次イラストにできるかも。
ソースも紹介してくださっていましたのでメモ。
表現
オリジナルヒューマン生成
CoffeeVectorsさんの制作物に注目が集まっていました。ワークフローはツイートのリプライに記載されてますが、以下に簡易的に解説してます。
まず、Daz 3d(3D人物が得意な簡易モデリングソフト)Daz Studio(3D アート作成ソフトウェア。(ご指摘があり、修正。))でモデルを生成。Unreal Engineのmeshtometahumanアドオン(モデルとか素材があれば簡単にメタヒューマンが作れるツール)でメタヒューマン化
その動画から1フレーム画像として抜き出し、Stable Diffusionのimg2imgでイラスト生成。
それをThin-Plate Spline Motion Modelを用いて生成した画像をアニメーション化。Thin-Plate Spline Motion Modelとは動画と画像があれば、その画像をそれと近いように動かせるというもの。転送画像と動画にギャップがあるとうまくいきません。(ebysynthとやれることは同じですね、というかあの中身がこれなのか)
そしたらこの動画ができちゃうとのこと。
できたらTopazVideoEnhance(動画のアップスケーラー)で拡大。
なお、目などがこのプロセスでアーティファクト(歪み)が発生するとのことなので利用するビデオシーケンスは全て画像にしてGFPGANを通すとのこと。すると目の品質は向上するそうです。GFPGANは顔を復元するためのアルゴリズム。
自動生成した歌詞からAI動画生成
最近すきえんてぃあさんがDeforumDiffusionでかなり制作されているので気になっていました。こちらはおそらく生成した歌詞をカットして、その歌詞のpromptがいくつもキーフレームになっているという感じだと思います。
僕も最近実験しています。
Midjourneyで生成したものを3Dに
生成画像のバリエーションを用いることで動画を生成。
研究
SD + IMG2IMG + After Effectsのワークフロー
最近このようなワークフローの映像がアップされてきていますが、こういうのを見てると本当に従来のレタッチ、デザイン、イラスト作業を抜本的に変えていくことが目に見えて分かります。
高解像度イラスト生成のワークフロー(Grid Upscalerを使用)
グリッド分割して、それぞれでまたimg2imgでディテールを描写して、それをまたphotoshopで修正して..というプロセスを経て、違和感のない美しいイラストを生成されています。
こちらのcolabでgrid upscaleができるそうです。
512x512 の 24 倍のピクセル「3072x2048」での適切な生成方法
Soft Diffusionの発表
( ) は囲まれた単語への注意を高め、[ ] はそれを減らします。
これはStable Diffusion Web UI(by automatic1111)のみに入っている機能だそうです。ただこのフォークが多いため、色んなところでこの方法は使えるとのことです。
モデルのハイブリット
trinart_v2 と waifu-diffusion+stable-diffusionハイブリットができるみたいです。(forasteranさんの投稿で知りました。)
Stable Diffusion Concept Libaryを試す
いつも新しいのが出たらすぐ試して、すぐnoteを書いてくださってる布留川さん(npakaさん)。いつも感謝しています。最近でたConcepts Libraryを試されているのでぜひ。
拡散モデルのサーベイ
思想・ムーブメント
「REALMS」が販売されています。
先週Midjourneyで制作されたコミックがAmazonランキングに入ったとニュースがありましたが、昨日も1冊の投稿が伸びていたので紹介。
キャラクターの類似性は「--chaos 0 --sameseed 12345」を使うことで乗り切ったそう。ちなみに「chaos」は結果がどれくらい一貫性が失われるか、「sameseed」はmidjourney特有の最初の生成画像4候補に同じseed値が適用されるというもの。なるほど..確かにそうすれば今でも一貫性が作れるのか。漫画自体はmidjourneyで生成した画像を、PhotoshopとComic Life 3で改造されたそうです。
こちらで購入できます。日本だとTwitterで投稿してる人しか確認していないのでやれば注目は集まるかもしれませんね。
StableDiffusionが使えるアプリ「AIピカソ」開発者、冨平準喜さんインタビュー
StableDiffusion公開から爆速でリリースされたAIピカソ。その開発者の方のインタビューがDIAMOND SIGNALさんからまた投稿されていました。このシリーズは続きそう。
将来AI生成画像が学習データに含まれ、ノイズになるのでは?
深津さんもこのようなお話をされてましたね。
過去の質問でStabilty.aiのCEOのEmadさんは問題ないとお話しされているようでした。
最後に
日刊を公開し始めていつの間にか13日経ちました。気づけばずっと見てくれていつもいいねしてくれたり、コメントくれたりしてくれる人も増えてきました。励みになっています。ありがとうございます。
Twitterに、毎日製作したものや、最新情報、検証を載せています。よかったらフォローしていただけますと幸いです。
前回の号はこちら
次の号はこちら
サポートいただけると喜びます。本を読むのが好きなので、いただいたものはそこに使わせていただきます