見出し画像

日刊 画像生成AI (2022年11月4日)

画像生成AI界は、今認識できないスピードで進化をし続けています。
DALL・E2公開、Midjourney公開、StableDiffusionがオープンソースで公開され、日々とても早いスピードで変化しています。

"新しい扉"

そんな中、毎日時間なくて全然情報追えない..!って人のために業界変化、新表現、思考、問題、技術を毎日あらゆるメディアを調べ、まとめています。


過去の投稿はこちら


開発


OpenAIがついにDALL-EのAPIを公開。そして早速..

ずっと公開されずにいたOpenAIのDALL-EのAPI。この度ついに公開されました!StableDiffusionじゃなく、DALL-Eの可能性を考えた何かサービスが生まれるかもしれない。

・256x256, 512x512, 1024x1024で生成可能
・同時に1~10個生成まで、5分だと25枚
・inpainting, バリエーション生成ができる

TheVergeやVerntureBeatにも詳しく書かれています。よかったらどうぞ

そしたら早速APIをPhotoshopで使えるように実装した方がいました。
Flying dogの方っぽいので、元々PhotoshopでSDが使えるサービスを作っていた方。そのプラグインにDALL-E2も含まれるようになるそうです。


Open-Vocabulary Semantic Segmentation with Mask-adapted CLIP実装

https://twitter.com/_akhaliq/status/1588531619622948865

クラスネームとして単語を入力したら複数自動で正確に範囲指定してくれるみたいです。既にWebUI by AUTOMATIC1111に入っているスクリプトのtext2mask(github, arxiv)に比べてかなり精度が高そうです。


mimicがついに再開!

mimicがついにサービスを再始動!

どういう点が変わったのか説明しますと、まず絵師さんしか使えないようにTwitterの審査が必要になったのと、学習で使った画像が公開、そしてそのジェネレーターも公開される仕様となりました。そして、利用規約違反があった際の報告フォームも作成。悪用防止対策として透かしを強化と、ガッツリ対策をされています。

まっくすさんが足りない時のテクを話されていました


WebUIにDreamBoothが追加!

WebUIについにdreamboothのプルリクエストが来ました。

https://twitter.com/_akhaliq/status/1588376931615256576

そして、エクステンションとして追加されやったね


「Dream Textures」がv0.0.9で完全自動で3Dモデルにテクスチャリング

BlenderでStableDiffusionが使えるアドオン「Dream Textures」がv0.0.9で、テキスト入力してボタンを押せば3Dモデルを自動でテクスチャリングできるように開発が進んでいるみたいです。




Text to Image to Music to Videoが公開

テキストから画像を生成して、画像から音楽を生成、それらをまとめて動画も生成してくれるようです。


AIアートインポスター発売開始

めっちゃやりたい。以前予告されていた画像生成AIを活用した人狼風ゲーム、AIアートインポスターがついに発売開始されました。


Charactor.AIに作画キャラ登場

会話型AIを作れるサービスCharactor.AIに、話しかけると画像を生成してくれるキャラクターが登場したようです。


Macで一発インストールでローカルでStableDiffusionが使える「DiffusionBee」が大幅アップデート

M1 Maxでも生成速度はそこまで速くなく、機能もかなり限定的だったDiffusionBeeがこの度大幅アップデート。早い生成速度を手に入れて、inpaiting, outpainting, 諸々オプションも追加されたそうです。これは期待


Invoke AI 2.1がリリース

有名で豊富な機能を持つStableDiffusion実装の1つ、InvokeAIが2.1をリリース。InvokeAIは512x768 の画像を生成するのにわずか3.5 GBのVRAM しか必要とせず 、Windows/Linux/Mac (M1 & M2) と互換性があります。

2.1アップデート内容
・WebGUIでのinpaintingサポート
・WebGUIでのナビゲーションとユーザー エクスペリエンスが大幅に向上
・プロンプトの構文は、プロンプトの重み付け、クロスアテンション、およびプロンプトのマージで強化されました。
・CLI または WebGUI を離れずに、複数のモデルをロードし、それらをすばやく切り替えることができるようになりました。
・インストール プロセス (経由scripts/preload_models.py) では、いくつかの一般的なStable Diffusion モデルから選択してダウンロードし、代わりにインストールできるようになりました。他のモデルの中でも、このスクリプトは、現在の Stable Diffusion 1.5 モデルと、顔の生成を改善する StabilityAI ・variable autoencoder (VAE) をインストールします。
・修復のためにマスクされた領域を正しく取得するために写真編集者と格闘するのにうんざりしていませんか? AI がテキスト マスキングを使用してマスクを作成します。この機能を使用すると、画像の塗りつぶす部分を英語のフレーズだけで指定できます。
・被写体の頭が切り落とされるのを見るのにうんざりしていませんか? 露頭機能を使用して、CLI でそれらをアンクロップします。
・より大きな次元の画像を生成するときに、被写体の体が複製されたり壊れたりするのを見るのにうんざりしていませんか? CLI でオプションを確認する--hiresか、WebGUI で対応するトグルを選択します。
・SD Conceptsの Hugging Face アーカイブから、テキストの反転と微調整 .bin スタイルとサブジェクトをサポートするようになりました。オプションを使用して .bin ファイルをロードし--embedding_pathます。(次のバージョンでは、複数の同時モデルのマージとロードがサポートされる予定です)。


Diffuser 0.7.0vが公開

・Apple Silicon のサポートが大幅に改善されました。
・メモリ効率の良い生成: フラッシュを使用した GPU で最大 2 倍の生成速度
・DanceDiffusion: ディフューザーがオーディオに対応
・読み込みの高速化: パイプラインの読み込みが 2 倍高速化

npakaさんのまとめがこちらにあります。どうぞ!


Chicken Diffusionが公開

Redditのチキンの投稿画像を学習したモデルが公開。プロンプトに「chkn」を利用することで使えます。


BlenderでSDが使えるプラグイン「CEB Stable Diffusion」に3D顔生成機能が搭載されるようです


PlatさんのNovelAIプロンプト読み込み機


表現


深津さんがコラージュAIの実験中


852話さんのNovelAI探求

新しい表現の合成や、最近複雑な風景内に配置する実験をずっとやられている印象です。とても素敵。


4s4ki「電脳郷」

forasteranさんが紹介されていたのを発見しました、こちら引用させていただきます。SDやDeforumを活用したMVが公開されているようです。日本だと初めて見たかも。


研究


【ソロ】浅野いにおの近況報告【4】


NovelAI, Waifu Diffusionで使えるスタイルガイドまとめ

RedditにてNAI, WDのスタイルガイドまとめが公開されていたのでメモ。


思想・ムーブメント


「画像生成AI」で社会はどう変わる?“無料公開”企業CEOに聞く懸念と未来

StableDiffusionについて特集がテレビで組まれたようです。Stability AIのCEOのEmad Mostaqueさんがテレビに出演し、インタビューに答えられています。また深津さんが作ったDreamBoothが出ていたり、松尾豊さんも出られています。詳しくは以下のリンクからどうぞ。


ついにGitHubのコードで学習したAI「GitHub Copilot」が集団訴訟に直面


EmTech 2022:人類と機械の橋渡しをする

「AI をどうするかを決定するのは私たち科学者ではありません…それは社会全体の決定です。テクノロジーは…良くも悪くも使われる可能性があります。」


Microsoft がセキュリティやビデオ ゲーム デザインなどの他の職種向けに GitHub Copilot を開発することを計画しているため、ジェネレーティブAIの可能性と危険性を考察


マイクロソフトは、AI があなたの仕事を変えてくれることを望んでいます。


ジェネレーティブ メディア: オーディオとビデオの生成がテクノロジの次の大きな飛躍である理由


ビッグデータが優先事項でなくなった理由と、注目すべきその他の重要な AI トレンド


人間と機械の境界線があいまいになっていませんか?


人工知能の台頭(どこでも)、今後10年のメタトレンドに関するスレッド


勉強


ViEW2022 画像生成モデルの最新動向


Huggingfaceで拡散モデルに関する新しいコースが開始

Generative ML の基本と、画像や音声などを作成できるモデルのトレーニング方法が学べるとのこと。登録してみました🤗


最後に


Twitterに、毎日製作したものや、最新情報、検証を載せたりしています。
よかったら見ていただけたら嬉しいです。

画像生成AIの実験, 最新情報のまとめはこちら


過去の号はこちら

次の号はこちら


サポートいただけると喜びます。本を読むのが好きなので、いただいたものはそこに使わせていただきます