見出し画像

日刊画像生成AI (2022年9月8日)

画像生成AI界は、今認識できないスピードで進化をし続けています。
DALL・E2公開、Midjourney公開、StableDiffusionがオープンソースで公開されて..進化の速度が上がり続けており、日々異常なスピードで変化しています。

"発見されずにいた未知の表現が溢れだす"

そんな中、毎日時間なくて全然情報追えない..!って人のために業界変化、新表現、思考、問題、技術を毎日あらゆるメディアを調べ、まとめています。


昨日までの投稿はこちら
(1週間連続投稿達成しました。うれしい)



開発


DreamStudio img2imgが可能に。

Stable Diffusionが簡単に使える公式サービス、「DreamStudio」がアップデートされて、img2imgが追加されたようです。これは嬉しい。タイムラインにimg2img事例がさらに増えそうですね。


The Stable Diffusion Photoshop Plugin

1週間前ほどに登場したPhotoshop plugin「Alpaca AI」はwait list登録だけでしたが、それとは違い、DreamStudioAPIを利用しているからか、今すぐ利用できます。自分の方でも使ってみましたがかなり便利です。生成したものをそのままレイヤーに貼り付けることが可能です。しかもアーカイブに全て記録されていきます。
(DreamStudioAPIを利用してるので課金が必要なのが難点。img2imgまで機能が追加されて、GPUで動くようになればかなり有効ですね。)


Diffusers 0.3.0 公開。(Apple Sillicon対応!)

Apple Silicon Mac (M1 or M2)対応、ONNX対応、img2imgパイプライン対応したようです。僕はまだ入れずにいます..土日に今週の日刊分の検証を一通りやろうと思います。


超わかりやすいStable Diffusion。「Grockking Stable Diffusion」 Part2(textual inversion)公開

Stable Diffusionのコードを項目ごとに分け、システムをわかりやすくそれぞれ解説してくれている素晴らしすぎるGoogle Colab「Grockking Stable Diffusion」のPart2「textual inversion版」が公開されました。知らない方向けに解説すると、textual inversionとは数枚の画像を追加学習し、新しい単語「S」などとして登録できたりするやつです。これは嬉しいなぁ。

こちらから利用できます。


Lexica.artの検索エンジンがCLIPに対応。

Stable Diffusionの生成結果事例を検索できるLexica.art。このサービスはどうやら検索エンジンとしてOpenAIのCLIPを利用しているようです。画像の内容を検索して、はるかに高品質の結果を得ることができます。

https://www.reddit.com/r/StableDiffusion/comments/x8tguo/lexicas_search_engine_is_now_100_powered_by_clip/

いつの間にか「Explore this style」ボタンが追加されとる..

押すと..
ええ!!類似画像めっちゃ調べれる。もうPinterestだ..


表現


img2img × ebsynth × koe recast  by Scott Lighthiser

Scott Lighthiserさんが制作した動画がやばいです。要は3工程を挟んでおり、1つはStable Diffusionのimg2imgで1フレームをある画風、写真風に変換する。その1フレームと、動画を使って、ebsynthでその画風を全フレームに適用する。最後に、koe recastで声のトーンを書き換え。こんなリアルな未知の映像が作れてしまうのやばいですね。
声優業や、演出家の世界、ファッション業界がこれで大きく変わりそう。実際ガッツリ影響与えてくるのは2年後くらいかと思いますが..


アイデア賞! 手遊び→img2img

これはやられたーという感じ。指でピースして、足のpromptを入れると歩いているようにできたり、鳥っぽい形に指を変えて、鳥のpromptを入れるとこうなる..これはいいアイデアですね。

実際の動画はこちら。


kooさん、服の一点追求。

以前の刊で紹介いたしましたが、大量に服のアイデアをmidjourneyで生成し続けているkooさん。ひたすら投稿を続け、かなり伸び続けていらっしゃいますね。素晴らしい作品ばかりです。


猫をドラゴンに。

将来ゴーグルで自分のペットを見たら、猫でも違う生物に置き換えて見えるようにすることが可能なのかもしれません。そうしたら..仮想の生物をリアルで飼うことができちゃいますね。


研究


Waifu Diffusion検証続々

昨日リリースされたDanbooruの画像で微調整されたStable Diffusion、「Waifu Diffusion(非公式)」で検証している方々が続々登場。かなりクオリティが高い印象..。これはかなりすごいのでは。

https://www.reddit.com/r/StableDiffusion/comments/x8un2h/testing_waifu_diffusion_see_prompt_comparison/
https://www.reddit.com/r/StableDiffusion/comments/x8y1u3/waifudiffusion_v12_a_sd_14_model_finetuned_on_56k/


生成画像を合成 → img2img で違和感のない絵に

画像同士を合成し、それをimg2imgでまたアイデア出しできるという事例。こういう事例はかなり出ていますが、分かりやすい図になっていたのでメモ的に記載。


Houdiniでざっくり → Stable DIffusion(img2img)で生成。

個人的に、「企画→モデリング→レンダリング→加工→修正」という大きなプロセスは、「企画→本当にざっくりモデリング→大量生成→セレクト」というプロセスにゴリっと変わるのではないかと思います。建築業界に大きく影響を与えそうですね。


スピード感のあるWarp Diffusion

動きが早いものは見たことがなかったのでメモ。


各国の顔生成テスト

https://www.reddit.com/r/StableDiffusion/comments/x8rmua/painted_portrait_cultural_audit_seed_and_other/


Stable Diffusion Inpainting Test (コスチューム版)

https://www.reddit.com/r/StableDiffusion/comments/x8toq8/sdinpainting_costume_test/


思想・ムーブメント


オープンソースにしてほしいのはどれですか?(Emad)

Stability.aiのCEOのEmadさんがアンケートを取られていました。これは..今月出ると噂のやつでしょうか。


2022/09/25に..

これは..Stable Diffusionが公開される前、EmadさんはカウントダウンをTwitterでされていました。これは何か出る予感。過去に来月は音版を出すと話されていたので、音のAIが出ると思っています。


勉強


こちら新しいサーベイカテゴリー「勉強」を追加しました。

NVIDIA×滋賀大学、1000ページ超の機械学習教育用資料の日本語版公開

大学の教員向けと記載されていましたが、僕にもできるか..。とりあえず申請しています。


最後に


昨日も研究、表現、開発が沢山進んでいますね。もっと技術的な話に深掘りたいが..それは土日にやろうかと思います。

Twitterに、毎日製作したものや、最新情報、検証を載せています。
よかったらフォローしていただけますと幸いです。

https://twitter.com/Yamkaz


次号はこちら


サポートいただけると喜びます。本を読むのが好きなので、いただいたものはそこに使わせていただきます