日刊 画像生成AI (2022年11月26-27日)
ジェネレーティブAI界は、今とても早いスピードで進化し続けています。
そんな中、毎日時間なくて全然情報追えない..!って人のためにこのブログでは主に画像生成AIを中心として、業界変化、新表現、思考、問題、技術や、ジェネレーティブAI周りのニュースなど毎日あらゆるメディアを調べ、まとめています。
過去の投稿はこちら
ピックアップニュース
AI画像コンテスト終了!😆
2, 5位の方の投稿見つからなかったですが、上のYoutubeリンクで見れます!
CarperAIがOpenELMを発表!
CarperAI, StabilityAIによるOpenELMが発表されました!
うみゆきさん、bioshokさんが解説してくださっていたのでメモです
このノリで画像生成AIもYoutubeのお絵描き動画やpsdファイル分析して同じようなことができそう。そしたらもっと創造的なものが出せそう
Emadさんの投稿
10年後、世界はSFになる<AIエージェント(一般化知能)の実現> 〜汎用人工知能の前に訪れる「AIエージェント(一般化知能)」の実現まで〜
bioshokさんが登壇されてます、ぜひ!
開発
AUTOMATIC1111にSD 2.0が対応!!
Stable Diffusion 2.0 と互換性のある UI のリスト
あとからあげさんのノートブックはこちら。
DiffuserがSD 2.0に対応!
Emad氏がなぜNSFWを削除したのかという話
Deforumで複雑なネストされた数学関数を使用できる「FrameSync」
DreamBooth Training Guide (SD2.0対応) + SD2.0 fine-tuning Guide
こちらもどうぞ
Elysium_V2が公開
(前からあったものだったらごめんなさい)
これ僕認知していなかったんですが、Elysium_V2たるものがあるようです。
new ViT-H powered CLIP Interrogator
画像から優れたプロンプトを生成できるCLIP Interrogatorが、ViT-H-14 OpenCLIPモデルを使用して Stable Diffusion 2.0 で使用する用のプロンプトを出せるようになりました
Huggingfaceでも公開。
Distributed Diffusionが公開 (分散型トレーニング)
まだアルファ版で、セキュリティ、攻撃の問題が解決できていないとのことだけど、これで分散してトレーニングができるらしい。Stable Hordeみたいなのがこれを使って沢山現れるかもしれない。Minecraftのサーバーみたいにいっぱい立ち上がってるみたいな。これで巨大なAI企業に対抗できたりしないかな
Caricaturizer V1モデルが公開
プロンプトに「pcrc style」を利用することで使えます。
Inkpunk Diffusion v1が公開
Voxel-ish Image Packモデル v.1.2が公開
Waifu Art AI - Local Generatorが公開(iPhone, iPad, Mac対応)
Pix2Seqのコード、チェックポイント、colabが公開
画像認識するフレームワークのPix2Seqのコードやチェックポイント、colabが公開されたようです。
ここから画像生成AIから離れて、他のAIの動向のメモ
GPT-3で法務文書を書き換える
人間と同じようにWebサイトを読み取るGPT-3サマライザー
自分の幼い頃の日記を覚えたGPT-3(つまり自分)と対話する
NeurIPS 2022でのDeepMindの最新研究発表
NeurIPS 2022カンファレンスで、35の外部コラボレーションを含む47の論文を発表。大規模モデル、強化学習、およびアルゴリズム構成の進歩など。透明性、倫理性、公正性を備えたAIシステムの開発に取り組まれているようです。
SegCLR
脳組織の細胞アノテーション作業を自動化するために開発された、Google AIのSegCLRと呼ばれる新しい機械学習技術。「SegCLR」は拡張性があり、非常に短い断片からでも細胞へのアノテーションを行うことができる。
Teslaが完全自動運転 β版を解放
会話にリアルタイムで字幕をつけ、翻訳してくれるメガネ
表現, 研究
SD 1.5で出力。6000 x 4000に超解像しました。
Stable Diffusion 2生出力事例
EmadさんはSD2.0はfine-tuningをすることで本領を発揮し、DALL-E2やMidjounrneyを超えると話していたので今後の動向が楽しみ。
ただ、リアルな出力はSD2.0単体でもかなりクオリティが高いようです。
Stable Diffusionで映像のフレーム予測
電車からのいくつかのビデオの現在のフレームから次のフレームを予測するようにモデルをトレーニングしたSDモデルで作れられた映像。
Xiaomiが商品告知にStable Diffusion活用
ポーズメーカーソフトMagic Poster→SD2.0 Depth-to-image
NovelAIで三原色操作
以下のネガティブプロンプトで色合いを操作できるようです。なるほど
流行りはnijijourney!
NovelAIよりnijijourney、anything v3あたりの投稿が多く見られるようになってきました。
Chhaviは、Zaha Hadid Architectsのデザインプロセスにおいて、DALL-E 2とMidJourneyの両方を使用して実験を行っている
マウスの視点「Mouse Pov」 (プロンプト)
研究、
最近話題になったAIエージェントの強化学習環境のまとめ
あと布留川さんが共有していたMineDojoの動画。めっちゃわかりやすいです
なんかAIエージェントの事例見てると直感的に焦りを感じる。
Human or Machine? Turing Tests for Vision and Language
DiffusersベースのDreamBooth(SD2.0対応、Windows対応、必要VRAM 12GB~)
AIの汎化を理解するための軽量なシミュレーション環境「Powderworld」
思想・ムーブメント
私たちは、クリエイティブなソフトウェアの地殻変動の真っ只中にいます。
いずれ、私たちがサードパーティのウェブサイトに作品を掲載するのと同様に、圧倒的多数がオプトインを選択するでしょう
うみゆきさんの補足
AIアート作成行為の最も優れた点
AI アートはクリエイターを排除するものではありません — クリエイティビティの新時代の引き金となります
基本的にこういう記事とかAI系企業の代表の人とかはほぼ全てクリエイターを排除するものじゃなく支援するものという意見しか載ってない感覚。
機械学習にも独自のムーアの法則がある
ダニー・ラング氏(ユニティ・テクノロジーズ、人工知能担当SVP)の講演
以下重要な部分だけ文字起こし(DeepL翻訳)
sabakichiさんの画像生成AIを批判する人へのコメント
Generative AIとNFTの融合についてJasper.aiが「考える」こと
勉強
What are Diffusion Models?
最後に
Twitterに、毎日製作したものや、最新情報、検証を載せたりしています。
よかったら見ていただけたら嬉しいです。
画像生成AIの実験, 最新情報のまとめはこちら
過去の号はこちら
サポートいただけると喜びます。本を読むのが好きなので、いただいたものはそこに使わせていただきます