日刊画像生成AI (2022年11月19-20日)

2022年11月26日 19:19

ジェネレーティブAI界は、今とても早いスピードで進化し続けています。

そんな中、毎日時間なくて全然情報追えない..！って人のためにこのブログでは主に画像生成AIを中心として、業界変化、新表現、思考、問題、技術や、ジェネレーティブAI周りのニュースなど毎日あらゆるメディアを調べ、まとめています。

📣お知らせ
ジェネレーティブAIで取り組みたい事業があり現在進めていますが、
Webアプリケーション開発ができ今後一緒に取り組める方を探しています。
言語, 環境: AWS, React native, Python, Flutter, …など

もし興味がありましたら、TwitterでDMをいただけますと幸いです🙇

OpenAI Startup Fundに提出したよ😆

OpenAI Startup Fundに提出したよ😆
英語喋れないけどなんとか喋って頑張った！https://t.co/Sixsn9LdKb
— やまかず (@Yamkaz) November 26, 2022

過去の投稿はこちら

開発

元素法典 2.5巻が公開！

元素法典の2.5巻が公開！

NovelAIの高品質な魔導書「元素法典」の2.5巻が公開されました。独自性や新しい表現を重視した2.0巻とは違い、再び美しい絵そのものに焦点を当てているとのことhttps://t.co/aCwfW3cnUf pic.twitter.com/8gnNdqVSFV
— やまかず (@Yamkaz) November 20, 2022

ざっと確認した所、今回は新しく平面的なイラストレーションの事例も多数含まれていました pic.twitter.com/xRfcfdVBHn
— やまかず (@Yamkaz) November 20, 2022

複雑度が高い魅力的な絵も多数収録されています pic.twitter.com/XrQIw5OQXT
— やまかず (@Yamkaz) November 20, 2022

あるふさんのCool Japan Diffusion進歩共有

【進捗共有その1】
学習用Cool Japan Diffusionですが、学習し直してまだ途中です。この時点でテストで生成された1024枚のうち、64枚を選んでタイル状にしました。これらは1枚あたり2秒でAIにより構図を考えられ、生成されました。クリエイターの方は見ない方がいいかもしれません。 pic.twitter.com/diaxkrX4oA
— あるふ (@alfredplpl) November 20, 2022

Haruさん(WD開発者)がArtstation-Diffusionが公開

Haru氏より、Artstation-Diffusionとかいう、Artstationの5万枚の画像でファインチューニングされたSDモデルが着弾！これはWD1.4開発のテストとして作成されたらしい。マルチアスペクト比バケッティングが使われており、色んな解像度で生成してもかなり良く生成されるらしい！ https://t.co/iyM3yeU1Jh
— うみゆき@AI研究 (@umiyuki_ai) November 20, 2022

VRoidの衣服アセットでトレーニングされたモデルが公開

Anything V3ベースで、VRoid衣装アセットでトレーニングしたモデル。でもここまで行くとAnything V3がNovelAIリーク使ってるよねとかもうどうでも良くなるくらい違うものになっている。

https://www.reddit.com/r/StableDiffusion/comments/z09inh/img2ass_3d_cloth_generator/

StableDiffusion+DALLE2 for Photoshop by Cantrellに新しいinpaintingモデルを追加するらしい

StabilityAIのプロダクト担当副社長のCantrellさんのプロダクトに新しいinpaintingモデル（runwayの1.5モデル？）が追加されるようです。

There's an all-new inpainting model coming to the @StableDiffusion @Photoshop plugin. pic.twitter.com/oS6gzragwb
— Christian Cantrell (@cantrell) November 18, 2022

Art of MtG v1モデルが公開

このモデルは、Dreambooth でトレーディングカードゲーム Magic: the Gathering の約 5000 アートでトレーニングされ、アーティストや画像に関連するさまざまな情報が適切にタグ付けされています。

https://www.reddit.com/r/StableDiffusion/comments/yzzadb/new_magic_the_gathering_model_artofmagic_includes/

Nagel inspired model v1が公開

Yoji Shinkawaモデルが公開

（ここから少し画像生成AIと離れます）

Clip.audioがリリース

テキストからオーディオを生成する最強の方法
「https://t.co/fAxv8UQi8A」がリリースされてた

1.正確なオーディオをすばやく検索
2.より関連性の高い結果を得るためのお気に入り機能
3.新しい音声の生成 (近日公開)pic.twitter.com/UrtrXSUeT1 https://t.co/dwm1YnIGJL
— やまかず (@Yamkaz) November 23, 2022

OneFormerのdemoが公開

研究としては、一度学習すれば3つの画像セグメンテーションタスク（セマンティックセグメンテーション、インスタンスセグメンテーション、パノプティックセグメンテーション）すべてにおいてSOTA性能を達成できる、真に普遍的な画像セグメンテーションフレームワークを開発することが目的。

このOneFormerモデルは、ADE20k、CityScapes、COCOの3つのセグメンテーションタスクすべてにおいて、Mask2Formerモデルが3倍のリソースで3つのタスクそれぞれについて個別に学習したにもかかわらず、Mask2Formerモデルを上回る性能を発揮するらしいです。そのdemoが公開。

The @Gradio Demo for OneFormer: One Transformer to Rule Universal Image Segmentation is out on @huggingface Spaces

demo: https://t.co/4epVNKXU8I pic.twitter.com/0wrTzRX29O
— AK (@_akhaliq) November 18, 2022

OneFormerのArxivはこちら

UniformerV2のHuggingface demoが公開

動画からキャプション生成できている。野球ボールを打ってる動画を入力して「hitting baseball」と出力されてる。

We give a hugging face demo (https://t.co/K4E7BG3xHD) to use our UniFormerV2. Have a try! BTW, all the models are released in our repo (https://t.co/B0Skd3nqJR).
To our best knowledge, they are the best open-source models. We hope they can help the community. pic.twitter.com/YNZ8ORFHuc
— Kunchang Li (@likunchang1998) November 20, 2022

UniformerV2は、識別可能な時空間表現を学習するための新しいパラダイム。つまり動画からキャプションを生成するモデル..？

このアプローチは既存のVision Transformer (ViT)モデルをベースとし、性能向上のためにnew localおよびglobal relation aggregatorsを追加したものらしい。Kinetics-400, Kinetics-600, Kinetics-700, Moments in Time, Something-Something V1, Something-Something V2, ActivityNet, HACSといった8つの有名なビデオベンチマークにおいて既存のモデルより優れた性能を発揮することができるとのこと。

大きくしない方がいい。
GPT-3の品質を0.1%のコストで手に入れる方法

[1/5] **Spoiler alert** We trained a model with the same accuracy as GPT-3 (fine-tuned) that was 1400x smaller with 0.1% of the inference cost. How? With Data-centric Foundation Model (FM) Development in Snorkel Flow. Highlights in the thread 👇: https://t.co/dIhuFcvjth
— Snorkel AI (@SnorkelAI) November 19, 2022

これすごいな。ざっと読んだ感じだと大規模言語モデル(1000億パラ以上)等で特定のドメイン領域(法律)のデータセットを拡張し、そのデータセット用いて1.2億パラメータの言語モデルをガンガン訓練することで大規模言語モデルに匹敵する特定タスクへの能力を発揮するぽい。やば、0.1%のパラメータで？ https://t.co/92de9udJuA
— bioshok(INFJ) (@bioshok3) November 19, 2022

データを中心としたアプローチがどのようにモデルのサイズを縮小し、パフォーマンスを向上させ、モデルのトレーニングとデプロイのコストを削減するために使用できるかについて。

ただ、全ての基盤モデルの性能向上、コスト削減にはならないらしい。

表現

Disturbed - Bad Man [Official Music Video]

Midjourneyの画像で構成されているミュージックビデオをDisturbedが公開。制作に1ヶ月を要したそうです。すげぇ！

Izumi Satoshiさん、DreamBoothで元動画を学習させ破綻を防ぎつつ、プロンプトで任意の絵柄を適応する

izumi satoshiさんの実験。めちゃくちゃ上手くっている。かわいい。
これ見てさこゆい体操にハマってしまいずっと聞いてる..

うおおおお！京アニ手描き風のセーラー服初音ミクがかわいい！そして「dreamboothで元動画を学習させ破綻を防ぎつつ、プロンプトで任意の絵柄を適応する」というやりたかったことが出来てる！！
プロンプトエンジニアリングを頑張れば伸びしろはまだまだあるだろうけど、いったんそれは後回し→ pic.twitter.com/qqnV56E1vY
— Izumi Satoshi (@izumisatoshi05) November 20, 2022

映画の風景みたいなMidjourney v4出力物

このクオリティで動画生成できる未来楽しみすぎる。

all that matters#aicinema generated in #midjourneyV4, outpainted in #dalle2, color corrected in #photoshop pic.twitter.com/qBdRFbmZH7
— Julie W. Design (@juliewdesign_) November 19, 2022

30分でStable DiffusionとBlenderで宇宙船の3Dモデルを作ってる事例

A 30-min. exercise in using #StableDiffusion and #B3D to make a spaceship 3D model. Could be great for games prototyping! #AIArt pic.twitter.com/uolNqH6PDQ
— Albert Bozesan (@AlbertBozesan) November 20, 2022

私の2人の友人の写真で訓練されました（ワークフロー有）

研究、検証など

Disco Diffusion Artist Study

proximaさん、KyrickYoungさんなど古参勢がやってるプロジェクト、DiscoDiffusion Artist Studies が本日正式に終了。
4,243 のスタイルを完成がまとめられています。すごい！

here’s the great write-up by @sureailabs where you can read more about this project: https://t.co/789P6tMWod
— proxima centauri b (@proximasan) November 19, 2022

officialy finished the #DiscoDiffusion Artist Studies today! 🥳 we completed 4,243 styles 🤯 thanks so much for working with me on this 🥲 @sureailabs @KyrickYoung @EErratica @yontelbrot

here's the last "beautiful painting of a waterlily pond" that rendered: pic.twitter.com/tqrRt5Slqe
— proxima centauri b (@proximasan) November 19, 2022

ResNet guided Stable Diffusion

ResNet guided Stable Diffusion（指定した画像にResNetの特徴量が近づくように画像生成する）を実装したので、前フレームの生成画像に近づくようにしてimg2imgしてみた。前のより若干一貫性が良くなったような……。元画像の25fpsを15fpsへ落としてます。
strength 0.15, scale 25.0, steps 200 pic.twitter.com/t3nu2KtKy9
— Kohya S. (@kohya_ss) November 20, 2022

StableDiffsionで作るウォーキングのアニメーション事例

SDiffusion -> Frame-to-Frame animation! This is not the best result. Try to iterate slowly and keep maximum consistency during the process.
#stablediffusion #indiegames #GodotEngine #2danimation @emmanuel_2m @KaliYuga_ai
@Scobleizer
@PublicPrompts
@EMostaque pic.twitter.com/tNVNwuRcZi
— Lucas Ferreira da Silva (@bioinfolucas) November 20, 2022

Lattent Diffusion modelによる超解像

サンプラーの得意、不得意まとめ

やっぱりddimいいですよね！個人的にもddim一番好き。

チラ裏

○ k_euler_ancestral → 人物が得意。プロンプトに忠実
○ k_euler → 背景+魔法系エフェクトが得意
× k_lms → 漫画的塗り。人物描写が苦手
○ plms → 漫画的塗り。たまに高クオリティの絵ができる
◎ ddim → 別次元。背景と構図が得意。手の描写が苦手。

↓plmsのSSR
#NovelAI pic.twitter.com/kXqjK4I4hQ
— あいおえおえかきの (@NovelAIoekaki) November 18, 2022

世界での画像生成AIサービス比較調査

各AI画像生成サービス（OSS含む）について、2022年3月以降の人気の比較調査してみました。

1/ まず、日本では #novelAI が今一番人気です。しかし、 pic.twitter.com/cXJIdqA3sw
— PromptStreamの中の人 (@promptstream) November 20, 2022

5/ 中国では地域でかなり利用するAIが違うらしい。

どうも海沿いの住民は全部試しているが、内陸では　#novelAI が優勢らしい。

なぜでしょう？ pic.twitter.com/JpDjAGoIql
— PromptStreamの中の人 (@promptstream) November 20, 2022

Nijijourneyざっくり感想

#nijijourney ざっくり感想
・クローズドβ版より進化してる
・NAIで使ってたPromptを流用しても全然結果が違うので，これ用のPromptを練る必要あり
・長々したPromptより，短めにしてnijijourneyにお任せした方が良い部分強そう
・やはり背景が強い．その上で銃や楽器の破綻も少ない

かなり良い感じ！ pic.twitter.com/UXusJI3wdk
— 猫黒夏躯 (@NatsukuPhoto) November 20, 2022

電々さんのNovelAI、年齢の表現まとめ

年齢の表現（間違いあったので再掲）#NovelAI #AIイラスト #NovelAIDiffusion pic.twitter.com/lGDWmuGGhg
— 電々 (@den2_nova) November 20, 2022

メモ: 「#」など特殊文字で好きなモデルを整理できるよ

https://www.reddit.com/r/StableDiffusion/comments/z01ctj/you_can_organize_your_models_with_automatic_1111/

プロンプトの影響の与え方の図

AI研究者の方と会話するの楽しい。ホクホク。

red shirt yellow skirt
で汚染の方向はあるけれど
服→色への汚染もあるからやっぱり
red skirtもyellow shirtも出る。

つまりこういうイメージ（↓）なのかな？

ん、これだと呪文の距離を離すのは色汚染に有効ってことになる？
検証する価値あるか。 pic.twitter.com/iw8XAexRBe
— らけしで (@lakeside529) November 18, 2022

Automatic1111 の WebUI を使用するための Noob ガイド

思想・ムーブメント, ブログ, メモ

Mira Murati - DALL-E 2とAIの力｜The Daily Show

(3週間前のもので拾えていなかったもの)
OpenAI最高技術責任者のMira Muratiさんが、『DALL-E 2』の創造力、AIを使うことで生じる倫理的・道徳的問題、そして人工知能がどのように社会の想像力を高め、形づくることができるかについて語っています。

概要のメモ

AIはどうやって画像を作るの？
画像をコピーしているのではないからです。何もないところからイメージを作り出しているのです。このことに恐怖を感じる人たちがいます。
どうやって防ぐのか、あるいは完全に防ぐことができるのか？

あなたのチームは、仕事や人生の大きな意味、あるいは人間が持つ目的についても考えていますか？
AIが人々の仕事とは何かを徐々に奪っていくと、同じ目的を持たなくなった人々の層が厚くなっていくことでしょう。他の革命と同じように、新しい仕事が生まれ、愛される仕事も出てくるとは思います。

画像と言葉。2026年のAI

(前に載せていたらごめんなさい。)

【悲報】AI絵師さん、頼まれてもないのに他人のイラストをAIアレンジしてしまう

【悲報】AI絵師さん、頼まれてもないのに他人のイラストをAIアレンジしてしまうhttps://t.co/PJ1iC1k9x7 pic.twitter.com/vMp4uETw5f
— 滝沢ガレソ⭐ (@takigare3) November 19, 2022

コマーシャルアートテクノロジーの波に乗ってきた 40 年間を振り返る

https://www.reddit.com/r/StableDiffusion/comments/yznvqy/reflections_on_40_years_of_riding_the_commercial/

AI を使用して 12 年間のテレビ出演を研究

AIアートは本当にアートなのか？カリフォルニアのギャラリーは「イエス」と言う

検索の黄昏

AIの可能性を広げる新チップ

https://www.quantamagazine.org/a-brain-inspired-chip-can-run-ai-with-far-less-energy-20221110/

ニューラル言語モデルは実際には非常に長い間存在していましたが、今日の範囲に近いところは誰も気にしていませんでした

An interesting historical note is that neural language models have actually been around for a very long time but noone really cared anywhere near today's extent. LMs were thought of as specific applications, not as mainline research unlocking new general AI paths and capabilities
— Andrej Karpathy (@karpathy) November 18, 2022

Search is Overfitted Create; Create is Underfitted Search

「Generative AIは、今後ニューラル検索にとって最大の競争相手となるかもしれない。」であったり「検索と創造は表裏一体。」など

面白い！
つまり、検索と生成（創造）は世界に対して過学習するかアンダーフィッティングするかでしかない。世界の事実を忠実に返すのが検索、解釈やクリエイティビティを加えると生成AIに。未来は正確な検索も創造的な意見やコンテンツの生成もグラデーション的に変更し実行できるようになるだろう。 https://t.co/wHENAj1EXi
— bioshok(INFJ) (@bioshok3) November 18, 2022

勉強

5分以内にHFにDreamBoothのDemoをアップロードする

あまり知らなかったのでメモ。こんな感じでアップできるんですね

Demo your DreamBooth in less than 5 minutes!

1. Drag'n'drop @diffuserslib folder to the🤗 Hub
2. Add "text-to-image" tag to activate blazing fast GPU inference widget#stablediffusion pic.twitter.com/Jzev9Zy3VX
— Patrick von Platen (@PatrickPlaten) November 19, 2022

最後に

Twitterに、毎日製作したものや、最新情報、検証を載せたりしています。
よかったら見ていただけたら嬉しいです。

Tweets by Yamkaz

画像生成AIの実験, 最新情報のまとめはこちら

過去の号はこちら

サポートいただけると喜びます。本を読むのが好きなので、いただいたものはそこに使わせていただきます

日刊 画像生成AI (2022年11月19-20日)

開発