日刊画像生成AI (2022年10月1日)

2022年10月9日 21:17

画像生成AI界は、今認識できないスピードで進化をし続けています。
DALL・E2公開、Midjourney公開、StableDiffusionがオープンソースで公開されて..進化の速度が上がり続けており、日々異常なスピードで変化しています。

そんな中、毎日時間なくて全然情報追えない..！って人のために業界変化、新表現、思考、問題、技術を毎日あらゆるメディアを調べ、まとめています。

昨日までの投稿はこちら

開発

テスラ、Optimus公開。

Tesla AI dayにOptimusというロボットが公開されました。自社工場に実験的に投入予定で、5年内に$20k（280万円程度）で一般販売予定とのこと。イーロンマスク曰く「ターミネーターにならないよう注意したい」とのこと。

個人的にはこういうロボットが見たり聞いたりした情報まで学習データに含まれ始めた時こそ初めて、プロンプト入力の間隔は人間とかなり近いものになるんじゃないかと思っています。今プロンプトが人間的な対話からかなり離れているのでそうなってほしい。（そういう意味では今のプロンプト技術は細かいレベルではあまり意味覚える意味がないと思っています。概念を覚えるのは価値があるかと思っていましたが、アーティストスタイルやモディファイアを選べるguiがすごい勢いで登場するのを見て、それも意味ないと思っています。どうなんでしょうか。）

Stable Diffusion Infinity

無限のキャンバスに生成が可能な「stablediffusion-infinity」が更新。優れたUIのWebアプリにアップデート。かなりDALL・E2のOutpaintingに近い様子です。WebUI (by AUTOMATIC1111)に早く取り込まれてほしい。

Optimized Stable DiffusionがVRAM 4GBで1088x1088の画像生成を可能に、ネガティブプロンプトにも対応。

VRAM の使用量をさらに削減することを目的とした Stable Diffusion の basujindalフォークの修正版、Optimized Stable Diffusionが4GB GPU のみで 1088x1088の画像を生成と、ネガティブプロンプトの設定を可能にしたようです。

Text to Vectorgraphics

スケーリング可能なように、SVG、PDFで書き出してくれるWebUI(by AUTOMATIC1111)用のスクリプトが開発されました。

https://www.reddit.com/r/StableDiffusion/comments/xsidwd/txt2vectorgraphics_using_sd_to_create_scaleable/

png2png

画像間のモーフィングで間の画像を生成するというものらしいです。コメントも少なく、あまり情報はありません。

Auto SD WorkflowがマルチGPUでの操作を可能にしようとしてます。

以前紹介したSDの生成を自動化して沢山違うパラメーターで生成したりできるAuto SD Workflowがシステムにあるすべての GPU (または他のコンピューターのリモート GPU) を使用して、画像を同時にレンダリングできるようにしているとのこと。これによりこれまでの半分の時間で生成が可能になる。

Audo SD Workflowはここから。

DreamBoothが11GBに

nvidia 3060 12GB で問題なく動作するそうです。

NovelAI 検証が続々投稿。

10/1時点ではNovelAIは公開されておらず、続々と一部の利用できる方が投稿している状態でした。この後すぐに公開され大きな話題を呼びます。

I never expected vampire brides to be so cute, but here we are... Used WIP #NovelAI Image Generation in combination with my own art, as a color guide aside from prompt tagging.

I can't wait to have time to really sit down and work with something like this to create new art. pic.twitter.com/WZUt72nYvZ
— Aini (@Ainiwaffles) September 30, 2022

I made some of my VN characters with #NovelAI's build of #stablediffusion! pic.twitter.com/jXYjm1MheE
— Palladion (@PalladionHearts) October 1, 2022

pony-diffusion v1

Astralite Heart氏がpony-diffusion v1を公開。 AnlatanのCEO、NovelAIのヘッド研究責任者、リード開発者のEren DoğanさんとNovelAIがコンピューティングを支援しているようです。

I am happy to announce public release of pony-diffusion v1: https://t.co/L3JBgoJ9sF

Special thanks to @novelaiofficial and @kurumuz for helping us with compute needs. pic.twitter.com/RXYB6Hpspt
— Astralite Heart (@AstraliteHeart) October 1, 2022

Emad氏、1.5について言及。

予測では既に公開されているはずの1.5モデルが公開されていない状態ですがそこについてEmadさんが言及されているようです。

残念ながら、いくつかのコンプライアンス上の問題から、すぐに発表できるものではありません。
OpenCLIPとpolyglotは暫定的にリリースされています。

Unfortunately not some compliance things holding it up announcement soon.

OpenCLIP and polyglot have been released in interim.
— Emad (@EMostaque) September 30, 2022

わかりやすくするために
i) CompVisからフォークし、GitHubを維持しながら、Stability AIリリースに移行するプロセスを導入しています。
ii) 過去5週間のフィードバックを反映させる
iii) これは、トレーニング中のモデルの将来のリリースを合理化するものである。
詳しくはこちら
https://danieljeffries.substack.com/p/the-turning-…

To give clarity:

i) We are putting in place processes as we move to Stability AI releases, forking from CompVis & maintaining GitHub
ii) Incorporates feedback from the last 5 weeks
iii) This will streamline future releases of models in training

More here https://t.co/WPhCnuaxap https://t.co/lS0taGUouW
— Emad (@EMostaque) October 1, 2022

Emad氏
「Twitterは昨年、12億4700万ドルを研究開発に費やし、ついにその突破口を開いた。… 今後数年間で、それ以上の費用をオープンソース AI に費やす予定です。」

Twitter spent $1.247 billion on R&D last year finally made the breakthrough.

A historic moment 🙃

We plan to spend more than that on Open Source AI in the next few years..

Wonder what editing powers that will enable 🤔 https://t.co/vNN9B3W0IV
— Emad (@EMostaque) September 30, 2022

表現

もしも戦争の兵士がスマホで撮影していたら。

https://www.reddit.com/r/StableDiffusion/comments/xsszzg/what_if_we_send_a_smart_phone_back_to_the_past/

今日のおすすめAIアニメーションセレクト

HOLY MOTHER OF GOD
THIS IS INSANE@whoisMGMT pic.twitter.com/7jexyCf3Kj
— Euclid (Hueman Instrument) (@EuclideanPlane) September 30, 2022

happy friday! trying something new - what do you think? pic.twitter.com/9gIiUC66Ia
— illustrata 💀 (@illustrata_ai) September 30, 2022

Gm 🌪️🌧️

Work in Progress pic.twitter.com/HEqo98VEeN
— RURUTU (@RegRurutu) September 30, 2022

Happy Friday! This reminds me of a cute intro to a show about a woman living in the city. I would totally watch💖#stablediffusion #aianimation #aiia pic.twitter.com/uf1dOxhgDY
— blakely.gif ✨ (@projectgreybird) September 30, 2022

thispersondoesnotexist.com を使用し、DALL-E で拡張

https://www.reddit.com/r/dalle2/comments/xs6u3n/used_thispersondoesnotexistcom_then_expanded_it/

アメリカの衛星画像から全体までoutpaintingで生成。

https://www.reddit.com/r/dalle2/comments/xs789g/started_with_a_satellite_map_of_africa_and_filled/

研究

お絵描きAIで手指を描く方法や、二次キャラを描く方法

このtogetter超まとまってるでおすすめです。

フォトグラメトリの代替案としてDreamBoothを使えるか実験。

フォトグラメトリの代替としてDreamBoothが使えないか実験。回転台で360方向から撮影した24枚の写真を教師データにいろんなパターンを生成してみた。
当然3Dには変換出来ないけど、最終的に必要なアウトプットが静止画であるなら品質的に全然ありだと思う。#Dreambooth #stablediffusion @Prada pic.twitter.com/EpKtKLGLSt
— 2f6i (@2feet6inches) September 30, 2022

DreamBooth検証者続々

DreamBooth で冬優子ちゃん学習した時のステップ数ごとの結果まとめました
結論
・画像18枚の時は2400～3000ぐらいのステップ数が良さそう
・use_8bit_adamの有無の差は小さいので、有効で良さそう
・冬優子ちゃんは可愛い#StableDiffusionKawaii #Dreambooth https://t.co/ZWrQr1kEYZ
— yuu (@yuu_ai_novel) September 30, 2022

Stepsを20以上にすべき理由。

https://www.reddit.com/r/StableDiffusion/comments/xse27g/a_graphical_explanation_of_why_you_should/

チェックポイントマージの比較

https://www.reddit.com/r/StableDiffusion/comments/xss6bl/checkpoint_merging_comparative/

ネガティブプロンプトは、通常のプロンプトと同じくらい重要です。

Negative prompt:
(cartoon, 3d, disfigured, bad art, deformed, poorly drawn, extra limbs, close up, b&w, weird colors, blurry:0.25)

https://www.reddit.com/r/StableDiffusion/comments/xsrxhl/negative_prompt_is_just_as_important_as_the_main/

思想・ムーブメント

画像AIにどう関わっていくべきか

こちらかなりいい記事です。ポジションとしてどうあるべきかというのは僕も本当に考えているところなので共感しました。逆の視点のハシゴが外される懸念はあまり考えていなかったので面白かったです。

ブログを書きました　　画像AIにどう関わっていくべきか https://t.co/jFRZ57imts
— 海行プログラム (@kaigyoPG) September 30, 2022

Stable Diffusion社創設者 Emad Mostaque氏 AI倫理、宗教、インドのAIの未来、オープンソースについて語る

🚨 NEW: Our episode with @EMostaque of @stabilityai / StableDiffusion is out!

We discussed
- All things StableDiffusion
- Why gatekeepers are bad for AI
- Prompt eng.
- India's role in AI
- Dishoom in London (!)
- Religion/theology
- And much more!@aarthir and I had a blast pic.twitter.com/pgISO6PkYz
— Sriram Krishnan - sriramk.eth (@sriramk) September 30, 2022

AIの未来は真にオープンである必要があると強く信じています

Stability.aiの取締役会の会長になられた方Jim OShaughnessyさんがTwitterで「AI の未来は真にオープンである必要があると強く信じています。」と語られています。

1/🚨Announcing Some Professional News🚨

I'm delighted to announce that O'Shaughnessy Ventures LLC invested in @StabilityAI in August 2022 and that I have been elected Executive Chair of the board of directors.
— Jim OShaughnessy (@jposhaughnessy) September 30, 2022

私は、AIの未来は真にオープンである必要があると強く信じています。私の意見では、Stability.aiは、オープン AI ムーブメントの旗手でありビーコンです。

2/ I passionately believe the future of AI needs to be truly open, and https://t.co/bRdBUqxcsg is, in my opinion, the standard bearer and beacon of the open AI movement.
— Jim OShaughnessy (@jposhaughnessy) September 30, 2022

フードピア

画像生成AIを活用した謎のコミュニティがあるらしいです。メモ。

情報提供頂き、「フード○ア」について調べていました。情報提供頂いた方、ありがとうございました。「フー○ピア」と検索すると、AI生成したと思われる画像を投稿する謎のアカウント群が現れ、なかなか不気味です。これは一体何なのか。→ pic.twitter.com/MTspYqk0n3
— 雨宮純　怪事調査ライター (@caffelover) October 1, 2022

そして、この界隈のマップに対する反応から大体の事情が理解できました。一部界隈の人達が商店街という設定を作って楽しんでいるようです。あまり邪魔してもいけないのでこのへんで。 pic.twitter.com/XnmGnH6We7
— 雨宮純　怪事調査ライター (@caffelover) October 1, 2022

勉強

まっくすさんのText-to-imageの仕組み解説

技術書典で公開されていた「TensorFlowは使われたい！（3）」の内容を公開されていました。とても分かりやすいので是非！

昨今のお絵描きAIの進捗が著しく、いろんな方に一歩踏み込んで知ってもらいたいと思ったのでその仕組みについて解説資料を公開します〜（先日の技術書典の本の内容です）。これからいろんな分野の方が押さえておいても良い技術だと思うので、仕組みから興味持ってもらいたいなーという気持です。(1/5) pic.twitter.com/p7iBSY7ma5
— まっくす (@minux302) October 1, 2022

最後に

Twitterに、毎日製作したものや、最新情報、検証を載せたりしています。
よかったら見ていただけると嬉しいです。

Tweets by Yamkaz

画像生成AIの実験, 最新情報のまとめはこちら

前回の号はこちら

次回の号はこちら

サポートいただけると喜びます。本を読むのが好きなので、いただいたものはそこに使わせていただきます

日刊 画像生成AI (2022年10月1日)

開発