日刊 画像生成AI (2022年10月17日)
画像生成AI界は、今認識できないスピードで進化をし続けています。
DALL・E2公開、Midjourney公開、StableDiffusionがオープンソースで公開されて..進化の速度が上がり続けており、日々異常なスピードで変化しています。
そんな中、毎日時間なくて全然情報追えない..!って人のために業界変化、新表現、思考、問題、技術を毎日あらゆるメディアを調べ、まとめています。
過去の投稿はこちら
ピックアップニュース
Stable Diffusionを開発した会社「Stability AI」が17日、オープンソースの人工知能に1億100万ドルの資金調達を発表。
カスタムバージョンとは..アニメモデルか、V2の1024x1024のことなのか、それとも..何かとんでもないものがあるのかもしれない。
LightspeedがStability AIに投資した理由:ジェネレーティブAIを民主化するために
Stability AIに投資したのはCoatueとLightspeed Venture Partnersですが、Lightsspeedがブログで詳しく色々書いてます。知っておいた方がいい情報のみピックアップして紹介します。
開発
NovelAIの魔導書「元素法典」が話題に
NovelAIで質がいいものを出せるpromptが詰まっている魔導書「元素法典」が話題になりました。なぜ日本で広まったのか。経緯はこれです。
翻訳版を作ってくださった方がいました。こちらです。
元素法典のpromptを使って精度の高い絵を出す検証をされている方がこの日は多かったです。ありがたい。いやクオリティ高すぎる。
NovelAIがメンテナンス完了。
NovelAIが一時的にメンテナンスで停止していました。インフラストラクチャに大幅な変更を加え、スピードアップも見込めるとのこと。さらに生成が爆発的に増えるかもしれない。
旧とりんさまキャラクターズモデル(Trinart)をオープンソース化
おぉ..ついにtrinartもオープンソースに。意外と2GBしかないらしいです。NovelAIもオープンソースになる予定なのでもう現状世の中に出ていない画像生成AIモデルはmidjourneyとdalle2。midjourneyに関してもシークレットプロンプトや、あのスタイルを適用する方法はかなり逆算されてきているのでオープンソースに近くなってきている。
Public PromptsでApp Icons Generator V1が公開。
prompt販売サイト、promptbaseを正しいと思っていない方が無料でかなり精度の高いプロンプトを公開し続けているpublic promptというサイトがあるのですが、そのサイトでアプリアイコン生成のDreamBoothが公開。
Gradioが公開リンクを16文字のbase64に変更。
Gradioはセキュリティの脆弱性をこの変更にて改善しました。割り当てたアドレスが簡単に推測、スクリプト化できてしまう点、webui リポジトリのバグが重なり攻撃の可能性が非常に高くなっていたそうです。
DreamBoothSD GUIが登場。
ついにDreamBoothできる人がかなり増えそう。DreamBoothができる2つ目のGUIが登場。Windowsで10GB VRAMで実行できるDreamBoothができるGUIが登場。NMKD Stable Diffusionでできるようになったら次の日すぐそれができるやつも公開された。勢いがすごい。
WebUI AUTOMATIC1111の知られざる便利機能
重みを変更したいプロンプトの部分を選択し、CTRL + 矢印を上下に動かして重みを変更することができるらしいです。
普通プロンプトの強弱をつけるために (((()))))、{{{{}}}}をつけたりするのですがそんなんでいけるんか!
画像からプロンプトを大量に予測するサイト latentspace.devが公開。
やってみたけどこれすごい便利そう。prompt逆引き系colabは6つくらいあったけどそれを統合したものかな。colabノートブック起動せずできるの便利すぎるので嬉しい。
sd-multi
(これ注目されてないけど個人的に良さそう。)色んなStableDiffusionのフォークは全部すごいアクティブで進化しているが、たまに壊れていたりするからこうやってDockerで色々試せるようにまとめているとのこと。hlkyもamotileもautomatic1111も入ってる。
表現
未定さんのNovelAIアート
未定さんを発見して個人的おすすめなので見てもらえると嬉しいです。概念の意外な掛け算にひたすらチャレンジされていてとても興味深いです。(普通に生成されたやつも好きですが)ここが画像生成AIのポイントの1つだと個人的には思っているので素敵です
すきえんてぃあ氏は8月30日に画風結合の例も沢山やられていたので紹介。
(スレッドにいっぱいあります。)
たんぽぽの時計
DALL-E2で楽譜を生成。
研究
WebARで現実世界を部分修正(Inpainting)している事例
WebARで現実世界をStableDiffusionのinpaintingしている事例。
こうやって世界に落書きしていくARの世界楽しそうだな
prompt2prompt検証
prompt2promptとはこれです。
11日には公開されていた非公式実装リポジトリに説明が書かれていたので紹介。簡単に説明すると普通のStableDiffusionだと求めている画像を出すのは時間がかかるし、ちゃんと求めたものを作るにはフォトバッシュワークフローみたいなのが必要で、一部マスクしてinpaitingで生成して合成してまた全体でimg2imgしてとかすごい複雑な工程いるけど、Cross Attention Control を使用するとマスクを入力しなくても、推論中に拡散モデルの内部アテンションマップを変更することで、プロンプトをより細かく制御できるというもの。
Izumi Satoshiさん、深津さんがやられているようです。
このリポジトリの中にcolabノートブックあったのでやりたい方はこちらに。(多分高速でautomatic1111に実装される。もう入ってたりしそう)
MidjourneyスタイルをStableDiffusionで得る方法
64~100 ステップ以上でこのプロンプトと設定でこのスタイルが得られるとのこと。
自分専用のStable Diffusion環境にリモートアクセスする方法
ローカルでStableDiffusionを起動して、Google Chromeリモートデスクトップでリモートアクセスする方法があるみたいです。こんな方法が!
NovelAIでシンプルな線画表現をする方法
{{{{{thick outline}}}}}, {{{{{black outline}}}}}がいいらしい。
sabakichiさんのこれもそうかもです。違ったらすみません。
ScottieFox氏のStable Diffusion VRのざっくり解説
数日前に話題になったこの人です。バッググラウンドでDeforumとTouch Designerを使っているとのことでしたがどうなのか..
思想・ムーブメント
Midjourneyコミュニティフィードから丸パクリして商品に貼り付けて販売してる男がいます。
Midjounrneyはコミュニティデザインがうまく、基本課金4000円程度に加え、2000円程度を払わないとプロンプトと生成画像を隠せません。なのでMidjourneyコミュニティフィードに大体の美しいアートは存在してるのですが、そこでプロンプトもコピペできてしまいます。要するに一瞬で気づかれにくい形でパクれる。指摘されたらだって「--chaos 100」とか指定したらある程度全然違う表現になるのでむずいですね..。本当に超独自性のものしか生き残れなくなるのか。むしろ平面絵はこれまで以上に圧倒的に飽和してしまうということなのか。「誰かが生成したもの」というものは価値がなくなり、全員が自分用に生成する時代になるのか。
この日の気になるツイート紹介
最後のyapoさんの発言で最初の前提「切り貼りして作っている」が違うのでここの認識は正しくしたほうが良いです。仕組みの記事はいっぱいありますがリプ欄に載ってたこのtoggetterまとめをとりあえず。
勉強
松尾豊先生の講演
最後に
Twitterに、毎日製作したものや、最新情報、検証を載せたりしています。
よかったら見ていただけたら嬉しいです。
画像生成AIの実験, 最新情報のまとめはこちら
過去の号はこちら
次の号はこちら
サポートいただけると喜びます。本を読むのが好きなので、いただいたものはそこに使わせていただきます