日刊 画像生成AI (2022年10月1日)
画像生成AI界は、今認識できないスピードで進化をし続けています。
DALL・E2公開、Midjourney公開、StableDiffusionがオープンソースで公開されて..進化の速度が上がり続けており、日々異常なスピードで変化しています。
そんな中、毎日時間なくて全然情報追えない..!って人のために業界変化、新表現、思考、問題、技術を毎日あらゆるメディアを調べ、まとめています。
昨日までの投稿はこちら
開発
テスラ、Optimus公開。
Tesla AI dayにOptimusというロボットが公開されました。自社工場に実験的に投入予定で、5年内に$20k(280万円程度)で一般販売予定とのこと。イーロンマスク曰く「ターミネーターにならないよう注意したい」とのこと。
個人的にはこういうロボットが見たり聞いたりした情報まで学習データに含まれ始めた時こそ初めて、プロンプト入力の間隔は人間とかなり近いものになるんじゃないかと思っています。今プロンプトが人間的な対話からかなり離れているのでそうなってほしい。(そういう意味では今のプロンプト技術は細かいレベルではあまり意味覚える意味がないと思っています。概念を覚えるのは価値があるかと思っていましたが、アーティストスタイルやモディファイアを選べるguiがすごい勢いで登場するのを見て、それも意味ないと思っています。どうなんでしょうか。)
Stable Diffusion Infinity
無限のキャンバスに生成が可能な 「stablediffusion-infinity」が更新。優れたUIのWebアプリにアップデート。かなりDALL・E2のOutpaintingに近い様子です。WebUI (by AUTOMATIC1111)に早く取り込まれてほしい。
Optimized Stable DiffusionがVRAM 4GBで1088x1088の画像生成を可能に、ネガティブプロンプトにも対応。
VRAM の使用量をさらに削減することを目的とした Stable Diffusion の basujindalフォークの修正版、Optimized Stable Diffusionが4GB GPU のみで 1088x1088の画像を生成と、ネガティブプロンプトの設定を可能にしたようです。
Text to Vectorgraphics
スケーリング可能なように、SVG、PDFで書き出してくれるWebUI(by AUTOMATIC1111)用のスクリプトが開発されました。
png2png
画像間のモーフィングで間の画像を生成するというものらしいです。コメントも少なく、あまり情報はありません。
Auto SD WorkflowがマルチGPUでの操作を可能にしようとしてます。
以前紹介したSDの生成を自動化して沢山違うパラメーターで生成したりできるAuto SD Workflowがシステムにあるすべての GPU (または他のコンピューターのリモート GPU) を使用して、画像を同時にレンダリングできるようにしているとのこと。これによりこれまでの半分の時間で生成が可能になる。
Audo SD Workflowはここから。
DreamBoothが11GBに
nvidia 3060 12GB で問題なく動作するそうです。
NovelAI 検証が続々投稿。
10/1時点ではNovelAIは公開されておらず、続々と一部の利用できる方が投稿している状態でした。この後すぐに公開され大きな話題を呼びます。
pony-diffusion v1
Astralite Heart氏がpony-diffusion v1を公開。 AnlatanのCEO、NovelAIのヘッド研究責任者、リード開発者のEren DoğanさんとNovelAIがコンピューティングを支援しているようです。
Emad氏、1.5について言及。
予測では既に公開されているはずの1.5モデルが公開されていない状態ですがそこについてEmadさんが言及されているようです。
表現
もしも戦争の兵士がスマホで撮影していたら。
今日のおすすめAIアニメーションセレクト
thispersondoesnotexist.com を使用し、DALL-E で拡張
アメリカの衛星画像から全体までoutpaintingで生成。
研究
お絵描きAIで手指を描く方法や、二次キャラを描く方法
このtogetter超まとまってるでおすすめです。
フォトグラメトリの代替案としてDreamBoothを使えるか実験。
DreamBooth検証者続々
Stepsを20以上にすべき理由。
チェックポイントマージの比較
ネガティブプロンプトは、通常のプロンプトと同じくらい重要です。
思想・ムーブメント
画像AIにどう関わっていくべきか
こちらかなりいい記事です。ポジションとしてどうあるべきかというのは僕も本当に考えているところなので共感しました。逆の視点のハシゴが外される懸念はあまり考えていなかったので面白かったです。
Stable Diffusion社創設者 Emad Mostaque氏 AI倫理、宗教、インドのAIの未来、オープンソースについて語る
AIの未来は真にオープンである必要があると強く信じています
Stability.aiの取締役会の会長になられた方Jim OShaughnessyさんがTwitterで「AI の未来は真にオープンである必要があると強く信じています。」と語られています。
フードピア
画像生成AIを活用した謎のコミュニティがあるらしいです。メモ。
勉強
まっくすさんのText-to-imageの仕組み解説
技術書典で公開されていた「TensorFlowは使われたい!(3)」の内容を公開されていました。とても分かりやすいので是非!
最後に
Twitterに、毎日製作したものや、最新情報、検証を載せたりしています。
よかったら見ていただけると嬉しいです。
画像生成AIの実験, 最新情報のまとめはこちら
前回の号はこちら
次回の号はこちら
サポートいただけると喜びます。本を読むのが好きなので、いただいたものはそこに使わせていただきます