日刊画像生成AI (2022年9月14日)

2022年9月15日 21:48

画像生成AI界は、今認識できないスピードで進化をし続けています。
DALL・E2公開、Midjourney公開、StableDiffusionがオープンソースで公開されて..進化の速度が上がり続けており、日々異常なスピードで変化しています。

そんな中、毎日時間なくて全然情報追えない..！って人のために業界変化、新表現、思考、問題、技術を毎日あらゆるメディアを調べ、まとめています。

以前作品紹介させていただいてたSaito Akiraさんもコメントくれました。
喜んでもらえてよかったです。

超素晴らしい。1日目を離すと全然追いつけなくなるので助かります。しかも9/2には僕の投稿も紹介していただいた。ありがとうございます！ https://t.co/UglsbBUXUm
— Akira Saito (@a_saito) September 14, 2022

昨日までの投稿はこちら

ツール開発

Img2imgアルゴリズムの進化

昨日の日刊で紹介していたものがWebUI（by AUTOMATIC1111）に実装されているようです。普通のimg2imgだと少しプロンプトを変えただけで大きく結果が変わり、微調整が難しいですがこの技術を使えば、ほぼ形を変えず口を少し笑顔にしたり、髪色を変えたりということが可能です。

ただRedditのリプライを見る限り、機能は一部の画像では有効だが、有効じゃないものもあるとのことです。

DreamLike.art UIが更新。

Stable DiffusionがWebで使えるサービス、DreamLikeのUIが更新されました。UIが美しい上、あらゆる機能が入っていて素晴らしすぎます。これにWebUIに入ってる様々な機能も入れば..やばいですね。現在無料ですが近日中に有料プランが追加されるとのことです。

使ってみたのですが生成した画像の履歴をinit imageにしたり、バリエーション生成したりとmidjourneyレベルの素晴らしいUI。全てのデータをいちいちメモする必要がありません。

シンプルすぎるStable Diffusion API登場。

URLにpromptを入力するだけで画像が出てきます。
例えば以下のようなcodeを書くだけで画像を取得できるそうです。

const target = "pizza";
["purple", "green",
"blue",   "black"]
.forEach( (color) => {
const img = new Image();
img.src =
"https://api.computerender.com/" +
`generate/${color}-${target}.png`;
container.appendChild(img);
});

500のアーティストスタイルが見れるWebサイト

アーティストリストはgoogle spread sheetや、notionのデータベースで公開されていることが多いですが、こちらはサイトで簡単にアクセスできます。特定のアーティスト同士を組み合わせることでいい結果が得られるとのことです。

PromptのためのGPT3がKrea.aiにもうすぐ登場？

機能としては、Chrome拡張機能のDALLE Prompt Helperと変わらなそうですが、今後の展開が楽しみです。

gpt3 for prompts? 👀✨

(soon 👉 https://t.co/V31Uw5atb6) pic.twitter.com/2My6dOlHXS
— KREA AI (@krea_ai) September 13, 2022

研究

img2img ハイクオリティスタイル変換

img2imgで映画のシーンをローポリ風に変換されている方の投稿が伸びています。かなり質が高いです。今後あらゆる過去作品がスタイルを変えて復活する…みたいな未来もあるのかもしれません。それかこの技術を使った新しい見え方の映画とか。

https://www.reddit.com/r/StableDiffusion/comments/xdfiri/improved_img2img_video_results_link_and_zelda_go/

井口さんが仕組みを日本語で分かりやすく記載されていたので載せておきます。

具体的には、2日前に話題になってた「画像から『その画像に辿り着けるノイズ』を探し出し、それをベースにプロンプトをいじる」手法を使って、通常のimg2imgより副作用を抑えて改変する操作を各フレームごとに行っているらしい。技術の進歩が速すぎる。 https://t.co/go1IwqlWkt #StableDiffusion
— Kenji Iguchi (@needle) September 14, 2022

StoryDALL-E

現時点で公開されている画像生成AIはプロンプトごとに生成結果がかなり変わるので物語を作ることが難しいです。（なんとなく作ることは可能です）この研究はその継続する画像のためのものです。画像を見る限りかなり同じキャラクターが生成できるのでもう漫画や絵本が作れそう。

StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story Continuation
abs: https://t.co/YBB5ujMCZJ

StoryDALL-E, based on a retrofitting approach for adapting pretrained transformer-based t2i synthesis models, outperforms GANs on the story continuation datasets pic.twitter.com/UsFCtXHmDf
— AK (@_akhaliq) September 14, 2022

モーショングラフィック → StableDiffusionでスタイル変換

映像をAIに入力して葛飾北斎風に変換しました。映像制作にも革命が起きつつありますね。

具体的には、#stablediffusion の技術を使った #deforum のVideo Input機能を使いました。まだパラパラ漫画風ですが、パラメータ変えたりfpsを上げればもっと滑らかになりそうです。 pic.twitter.com/j8616LW3mc
— moistpeace (@moistpeace) September 13, 2022

Steps と Guidance Scale 値の比較表

https://www.reddit.com/r/StableDiffusion/comments/xdvgyn/i_made_a_comparison_table_between_steps_and/

StableDiffusion 1.5v アーティストスタディ公開

現在201のアーティスト（prompt）が登録されているとのこと。

SamplerとStepsの比較

https://www.reddit.com/r/StableDiffusion/comments/xe26ob/sampler_v_steps/

表現

StableDiffusion Animation よかったものセレクト

Extreme audio-reactivity with #stablediffusion, the full 5-minute long music video is now on YouTube!#generativeart #aiart #deforum #aiartcommunity #aiartist #animation #animation2d #psychedelics #trippy #audiovisual pic.twitter.com/rfrzRf0yqc
— ryūnuck (@ryunuck) September 14, 2022

Damn, I could create such videos all day long ... and they're all worthy of being looked at frame by frame, each one being cool in its own way!? Oh AI, what are you doing to us?? pic.twitter.com/Iyaf5l453H
— WeavingWithAI (@GanWeaving) September 14, 2022

技術

TensorRTを使用してStable Diffusionを 25% 高速化

IDE-3D

A team of researchers presented IDE-3D, a GAN-based generative model that enables local control of the facial shape and texture, as well as real-time, interactive editing.

Details: https://t.co/XUjX5mc5DP #gan #generativeart #machinelearning #AI #AIart #art pic.twitter.com/A0tiLMTV9H
— 80 LEVEL (@80Level) September 14, 2022

Composable-Diffusion

Blurring Diffusion Models
abs: https://t.co/3XvXIKH1Rj

propose a generalized class of diffusion models that offers the best of both standard Gaussian denoising diffusion and inverse heat dissipation, called Blurring Diffusion Models pic.twitter.com/ywokVfx04D
— AK (@_akhaliq) September 14, 2022

思想・ムーブメント

グーグルのDeepMind研究者が共同執筆した論文で、AIは人類を絶滅させると述べている

オンラインアートコミュニティが AI 生成画像の禁止を開始

「イラスト投稿サイトでAIアートが無制限に投稿されまくる状態になれば、人間が描いたイラストを見つけることすら困難になってしまう可能性がある」というコメントには確かに共感しました。AIアートと人間の描いたアートには棲み分けが必要なのかもしれません。禁止まではせず、ハッシュタグで管理するというのでもいい気がしていますが..。どうなるんでしょうか。

gigazineさんが分かりやすく日本語化してくれていましたので是非。

mimic、今後の展開について発表

【mimicの今後の展開について】
先般はmimicベータ版へ多数のご意見を頂戴し、誠にありがとうございました。
皆様のご意見を踏まえた、mimicの今後の展開について説明させていただきます。長文となり恐縮ですが、ご一読くださいますようお願い申し上げます。 pic.twitter.com/aYwY0a5bRf
— mimic（ミミック） (@illustmimic) September 14, 2022

RJ Palmer vs Emad

かなり前に画像生成AIについて問題視されて話題になったコンセプトアーティストのRJ PalmerさんがEmadさんのコメントについて言及。Emadさんもそれに対し、言及されています。

RJ Palmer:
私が取材を受けたAI画像生成機に関するBBCの記事がアップされています。Stable Diffusionの創始者は、ここでは本当にバカ野郎のように見えます。この人は純粋にアーティストを理解していないんだ。

Emad:
しかし、Mostaque氏はアーティストが職を失うことを心配していないというこのプロジェクトはMicrosoftの表計算ソフト Excelのようなツールであり、それは会計士を失業させなかった。「私は今でも会計士に給料を払っている」と彼は述べている。

ではイラストレーションやデザインなどの将来のキャリアに悩む若いアーティストへの彼のメッセージはなんですか？彼らへの私のメッセージは、「イラストデザインの仕事はとても退屈だ」ということです。それは芸術的であることではなく、あなたのツールです。

彼は彼らが新しいテクノロジーを使って機会を見つけることを提案しています。

The BBC article about AI image generators I was interviewed for is up. The founder of Stable Diffusion comes across like a real asshole here. The guy just genuinely doesn’t understand artists. pic.twitter.com/MH822DR7J5
— RJ Palmer (@arvalis) September 13, 2022

Emad:
という質問を受けたので、読み物としても面白いので明記しておきます。
これらのAIモデルは、以下のことが可能なツールです。
1.ありふれた画像出力を簡単にする
2.アーティストに新しい発想の方法を提供する
3.より多くの人がアーティストになることを可能にする
4.新しい創造的な仕事を大量に生み出す
5.ツール＝低賃金労働者

Been asked about this so clarifying as reads funny.

These AI models are tools that can
1. Make mundane image output easier
2. Provide new ways of ideating for artists
3. Allow millions more to become artists
4. Will create loads of new creative jobs
5. Tool = poorly paid worker https://t.co/K8okzMemb9
— Emad (@EMostaque) September 14, 2022

勉強

Stable Diffusionはどのように機能するのか？

とても分かりやすくTwitterでStable Diffusionの中身について解説されている方がいたのでメモ。こちらもgigazineさんが分かりやすく解説されてました。

// Stable Diffusion, Explained //

You've seen the Stable Diffusion AI art all over Twitter.

But how does Stable Diffusion _work_?

A thread explaining diffusion models, latent space representations, and context injection:

1/15 pic.twitter.com/VX9UVmUaKJ
— AI Pub (@ai__pub) August 21, 2022

拡散モデルサーベイ

ほぼ同じタイミングで拡散モデルのサーベイが２本公開されてますhttps://t.co/3VIHlRPbvT https://t.co/Si1H82IerS

１本目は画像に特化して事例をたくさん知りたい場合、２本目は拡散モデルを基礎から幅広く把握したい場合にオススメ！
特に後者の最後、他の生成モデルとの関連はとても面白いです。
— mi141 (@mi141) September 14, 2022

最後に

Twitterに、毎日製作したものや、最新情報、検証を載せています。よかったらフォローしていただけますと幸いです。

https://twitter.com/Yamkaz

前回の号はこちら

次の号はこちら

サポートいただけると喜びます。本を読むのが好きなので、いただいたものはそこに使わせていただきます

日刊 画像生成AI (2022年9月14日)