見出し画像

日刊 画像生成AI (2022年10月17日)

画像生成AI界は、今認識できないスピードで進化をし続けています。
DALL・E2公開、Midjourney公開、StableDiffusionがオープンソースで公開されて..進化の速度が上がり続けており、日々異常なスピードで変化しています。

"宝の山"

そんな中、毎日時間なくて全然情報追えない..!って人のために業界変化、新表現、思考、問題、技術を毎日あらゆるメディアを調べ、まとめています。


次の日に投稿するのが一番いいと思ったので17日分を先出します。
メインページの日付順が崩れますが正しい順番はマガジンにどうぞ
遅れた間の日付分は毎日少しずつ公開していきます。


過去の投稿はこちら


ピックアップニュース


Stable Diffusionを開発した会社「Stability AI」が17日、オープンソースの人工知能に1億100万ドルの資金調達を発表。

Emad氏「AIは人類最大の課題を解決することを約束します。しかし、この可能性を実現できるのは、技術がオープンで誰もがアクセスできる場合のみです。」

「Mostaque氏によると、今回の資金調達は、Stable Diffusionのカスタムバージョンをユーザー向けに大規模に展開することと、スーパーコンピューティングパワーの増強に投資することを支援するものだという。」

カスタムバージョンとは..アニメモデルか、V2の1024x1024のことなのか、それとも..何かとんでもないものがあるのかもしれない。


LightspeedがStability AIに投資した理由:ジェネレーティブAIを民主化するために

Stability AIに投資したのはCoatueとLightspeed Venture Partnersですが、Lightsspeedがブログで詳しく色々書いてます。知っておいた方がいい情報のみピックアップして紹介します。

私たちが提唱するジェネレーティブAIは、人物、ビジネス、アイデアなどに関するストーリーを語ることが、基本的に人間を人間たらしめているという信念から出発しています。しかし、良いストーリーを語ることは簡単ではありません。テキスト、画像、ビデオ、オーディオ、プレゼンテーションなど、「コンテンツの作成」が必要です。しかし、現在、コンテンツ制作のプロセスはマニュアル化され、困難なままです。

ストーリーを表現する美しい画像を生成するには、想像力だけでなく、芸術的なスキル、Adobe Photoshopなどのツールの知識、そして長年の作業とトレーニングが必要です。ジェネレーティブAIは、この「手作業」の多くを軽減し、誰にとってもより身近なものにする力を持っています。私たちは、ジェネレーティブAIが、エンターテインメント、メディア、広告、教育、科学、芸術など、ほとんどすべてのクリエイティブな活動を根本的に変える力を持っていると信じています。最終的に、Stabilityのビジョンは、テキスト、ビデオ、オーディオなどに同様の機能をもたらすことです。

1ヶ月足らずの間に、Dreamstudioのユーザーは150万人を超え、20万人以上のオープンソース開発者がStable Diffusionを使用しています。

私たちは、Stability AIが、AIの人材や計算資源、使い方をカスタマイズする能力を持たない企業や非営利団体、政府にとって、理想的なビジネスパートナーになると信じています。


開発


NovelAIの魔導書「元素法典」が話題に

NovelAIで質がいいものを出せるpromptが詰まっている魔導書「元素法典」が話題になりました。なぜ日本で広まったのか。経緯はこれです。

翻訳版を作ってくださった方がいました。こちらです。

元素法典のpromptを使って精度の高い絵を出す検証をされている方がこの日は多かったです。ありがたい。いやクオリティ高すぎる。


NovelAIがメンテナンス完了。

NovelAIが一時的にメンテナンスで停止していました。インフラストラクチャに大幅な変更を加え、スピードアップも見込めるとのこと。さらに生成が爆発的に増えるかもしれない。


旧とりんさまキャラクターズモデル(Trinart)をオープンソース化

おぉ..ついにtrinartもオープンソースに。意外と2GBしかないらしいです。NovelAIもオープンソースになる予定なのでもう現状世の中に出ていない画像生成AIモデルはmidjourneyとdalle2。midjourneyに関してもシークレットプロンプトや、あのスタイルを適用する方法はかなり逆算されてきているのでオープンソースに近くなってきている。


Public PromptsでApp Icons Generator V1が公開。

prompt販売サイト、promptbaseを正しいと思っていない方が無料でかなり精度の高いプロンプトを公開し続けているpublic promptというサイトがあるのですが、そのサイトでアプリアイコン生成のDreamBoothが公開。


Gradioが公開リンクを16文字のbase64に変更。

https://www.reddit.com/r/StableDiffusion/comments/y64618/gradio_changed_their_public_links_to_16character/

Gradioはセキュリティの脆弱性をこの変更にて改善しました。割り当てたアドレスが簡単に推測、スクリプト化できてしまう点、webui リポジトリのバグが重なり攻撃の可能性が非常に高くなっていたそうです。


DreamBoothSD GUIが登場。

ついにDreamBoothできる人がかなり増えそう。DreamBoothができる2つ目のGUIが登場。Windowsで10GB VRAMで実行できるDreamBoothができるGUIが登場。NMKD Stable Diffusionでできるようになったら次の日すぐそれができるやつも公開された。勢いがすごい。


WebUI AUTOMATIC1111の知られざる便利機能

重みを変更したいプロンプトの部分を選択し、CTRL + 矢印を上下に動かして重みを変更することができるらしいです。

普通プロンプトの強弱をつけるために (((()))))、{{{{}}}}をつけたりするのですがそんなんでいけるんか!


画像からプロンプトを大量に予測するサイト latentspace.devが公開。

やってみたけどこれすごい便利そう。prompt逆引き系colabは6つくらいあったけどそれを統合したものかな。colabノートブック起動せずできるの便利すぎるので嬉しい。


sd-multi

(これ注目されてないけど個人的に良さそう。)色んなStableDiffusionのフォークは全部すごいアクティブで進化しているが、たまに壊れていたりするからこうやってDockerで色々試せるようにまとめているとのこと。hlkyもamotileもautomatic1111も入ってる。


表現


未定さんのNovelAIアート

未定さんを発見して個人的おすすめなので見てもらえると嬉しいです。概念の意外な掛け算にひたすらチャレンジされていてとても興味深いです。(普通に生成されたやつも好きですが)ここが画像生成AIのポイントの1つだと個人的には思っているので素敵です

すきえんてぃあ氏は8月30日に画風結合の例も沢山やられていたので紹介。
(スレッドにいっぱいあります。)


たんぽぽの時計

https://www.reddit.com/r/StableDiffusion/comments/y5tk4b/a_dandelion_clock_experimenting_with_alternate/


DALL-E2で楽譜を生成。

https://www.reddit.com/r/dalle2/comments/y5m638/dalle_in_major_sheet_music_detailed_can_anyone/


研究


WebARで現実世界を部分修正(Inpainting)している事例

WebARで現実世界をStableDiffusionのinpaintingしている事例。
こうやって世界に落書きしていくARの世界楽しそうだな


prompt2prompt検証

prompt2promptとはこれです。

11日には公開されていた非公式実装リポジトリに説明が書かれていたので紹介。簡単に説明すると普通のStableDiffusionだと求めている画像を出すのは時間がかかるし、ちゃんと求めたものを作るにはフォトバッシュワークフローみたいなのが必要で、一部マスクしてinpaitingで生成して合成してまた全体でimg2imgしてとかすごい複雑な工程いるけど、Cross Attention Control を使用するとマスクを入力しなくても、推論中に拡散モデルの内部アテンションマップを変更することで、プロンプトをより細かく制御できるというもの。

Izumi Satoshiさん、深津さんがやられているようです。

このリポジトリの中にcolabノートブックあったのでやりたい方はこちらに。(多分高速でautomatic1111に実装される。もう入ってたりしそう)


MidjourneyスタイルをStableDiffusionで得る方法

https://www.reddit.com/r/StableDiffusion/comments/y649yn/prompts_modifiers_to_get_midjourney_style_in/

64~100 ステップ以上でこのプロンプトと設定でこのスタイルが得られるとのこと。

Professional oil painting of establishing shot of canal surrounded by verdant ((blue)) modern curved rustic Greek tiled buildings, professional majestic oil painting by Ed Blinkey, Atey Ghailan, Studio Ghibli, by ((Jeremy Mann)), Greg Manchess, Antonio Moro, (((trending on ArtStation))), trending on CGSociety, volumetric lighting, dramatic lighting, (dawn), water, canoes, refraction

Negative prompt: amateur, poorly drawn, ugly, flat

Steps: 100, Sampler: LMS, CFG scale: 9, Seed: 918873140, Size: 704x512, Model hash: 7460a6fa, Batch size: 3, Batch pos: 0

Professional oil painting of establishing shot of canal surrounded by modern tiled blue curved African European fantasy buildings, professional (majestic) oil painting by Greg Manchess, Atey Ghailan, (Fenghua Zhong), ((Jeremy Mann)), ((((Greg Rutkowski)))), Antonio Moro, (((trending on ArtStation))), trending on CGSociety, dramatic lighting, (dawn), refraction, ((((Unreal Engine 5)))), rule of thirds

Negative prompt: amateur, poorly drawn, ugly, flat

Steps: 64, Sampler: LMS, CFG scale: 9, Seed: 3658904926, Size: 640x448, Model hash: 7460a6fa, Batch size: 3, Batch pos: 0


自分専用のStable Diffusion環境にリモートアクセスする方法

ローカルでStableDiffusionを起動して、Google Chromeリモートデスクトップでリモートアクセスする方法があるみたいです。こんな方法が!


NovelAIでシンプルな線画表現をする方法

{{{{{thick outline}}}}}, {{{{{black outline}}}}}がいいらしい。

sabakichiさんのこれもそうかもです。違ったらすみません。


ScottieFox氏のStable Diffusion VRのざっくり解説

数日前に話題になったこの人です。バッググラウンドでDeforumとTouch Designerを使っているとのことでしたがどうなのか..


思想・ムーブメント


Midjourneyコミュニティフィードから丸パクリして商品に貼り付けて販売してる男がいます。

https://www.redbubble.com/de/people/leviprime/shop

Midjounrneyはコミュニティデザインがうまく、基本課金4000円程度に加え、2000円程度を払わないとプロンプトと生成画像を隠せません。なのでMidjourneyコミュニティフィードに大体の美しいアートは存在してるのですが、そこでプロンプトもコピペできてしまいます。要するに一瞬で気づかれにくい形でパクれる。指摘されたらだって「--chaos 100」とか指定したらある程度全然違う表現になるのでむずいですね..。本当に超独自性のものしか生き残れなくなるのか。むしろ平面絵はこれまで以上に圧倒的に飽和してしまうということなのか。「誰かが生成したもの」というものは価値がなくなり、全員が自分用に生成する時代になるのか。


この日の気になるツイート紹介

最後のyapoさんの発言で最初の前提「切り貼りして作っている」が違うのでここの認識は正しくしたほうが良いです。仕組みの記事はいっぱいありますがリプ欄に載ってたこのtoggetterまとめをとりあえず。


勉強


松尾豊先生の講演


最後に


Twitterに、毎日製作したものや、最新情報、検証を載せたりしています。
よかったら見ていただけたら嬉しいです。

画像生成AIの実験, 最新情報のまとめはこちら


過去の号はこちら

次の号はこちら


サポートいただけると喜びます。本を読むのが好きなので、いただいたものはそこに使わせていただきます