見出し画像

日刊 画像生成AI (2022年11月26-27日)

ジェネレーティブAI界は、今とても早いスピードで進化し続けています。

そんな中、毎日時間なくて全然情報追えない..!って人のためにこのブログでは主に画像生成AIを中心として、業界変化、新表現、思考、問題、技術や、ジェネレーティブAI周りのニュースなど毎日あらゆるメディアを調べ、まとめています。

"AI画像コンテスト終了🥳"


過去の投稿はこちら


ピックアップニュース


AI画像コンテスト終了!😆

2, 5位の方の投稿見つからなかったですが、上のYoutubeリンクで見れます!


CarperAIがOpenELMを発表!

CarperAI, StabilityAIによるOpenELMが発表されました!

うみゆきさん、bioshokさんが解説してくださっていたのでメモです
このノリで画像生成AIもYoutubeのお絵描き動画やpsdファイル分析して同じようなことができそう。そしたらもっと創造的なものが出せそう

Emadさんの投稿


10年後、世界はSFになる<AIエージェント(一般化知能)の実現> 〜汎用人工知能の前に訪れる「AIエージェント(一般化知能)」の実現まで〜

bioshokさんが登壇されてます、ぜひ!


開発


AUTOMATIC1111にSD 2.0が対応!!


Stable Diffusion 2.0 と互換性のある UI のリスト

あとからあげさんのノートブックはこちら。


DiffuserがSD 2.0に対応!


Emad氏がなぜNSFWを削除したのかという話

If we release a model that is photorealistic and can do nsfw and children it is bad and not the right thing to do.
フォトリアルでnsfwと子供ができるモデルをリリースすると、それは悪いことであり、正しいことではありません

Destroy the child and leave the nsfw.
子供を削除し、nsfwを残してください

No
これは適したものではありません。
The model cannot be used in schools or similar settings then.
このモデルは学校や同様の設定では使用できません。


Deforumで複雑なネストされた数学関数を使用できる「FrameSync」


DreamBooth Training Guide (SD2.0対応) + SD2.0 fine-tuning Guide

こちらもどうぞ


Elysium_V2が公開

(前からあったものだったらごめんなさい)
これ僕認知していなかったんですが、Elysium_V2たるものがあるようです。


new ViT-H powered CLIP Interrogator

画像から優れたプロンプトを生成できるCLIP Interrogatorが、ViT-H-14 OpenCLIPモデルを使用して Stable Diffusion 2.0 で使用する用のプロンプトを出せるようになりました

Huggingfaceでも公開。


Distributed Diffusionが公開 (分散型トレーニング)

まだアルファ版で、セキュリティ、攻撃の問題が解決できていないとのことだけど、これで分散してトレーニングができるらしい。Stable Hordeみたいなのがこれを使って沢山現れるかもしれない。Minecraftのサーバーみたいにいっぱい立ち上がってるみたいな。これで巨大なAI企業に対抗できたりしないかな


Caricaturizer V1モデルが公開

プロンプトに「pcrc style」を利用することで使えます。


Inkpunk Diffusion v1が公開


Voxel-ish Image Packモデル v.1.2が公開


Waifu Art AI - Local Generatorが公開(iPhone, iPad, Mac対応)

https://www.reddit.com/r/StableDiffusion/comments/z5ndpw/i_made_a_stable_diffusion_for_anime_app_in_your/


Pix2Seqのコード、チェックポイント、colabが公開

画像認識するフレームワークのPix2Seqのコードやチェックポイント、colabが公開されたようです。


ここから画像生成AIから離れて、他のAIの動向のメモ

GPT-3で法務文書を書き換える


人間と同じようにWebサイトを読み取るGPT-3サマライザー


自分の幼い頃の日記を覚えたGPT-3(つまり自分)と対話する


NeurIPS 2022でのDeepMindの最新研究発表

NeurIPS 2022カンファレンスで、35の外部コラボレーションを含む47の論文を発表。大規模モデル、強化学習、およびアルゴリズム構成の進歩など。透明性、倫理性、公正性を備えたAIシステムの開発に取り組まれているようです。


SegCLR

脳組織の細胞アノテーション作業を自動化するために開発された、Google AIのSegCLRと呼ばれる新しい機械学習技術。「SegCLR」は拡張性があり、非常に短い断片からでも細胞へのアノテーションを行うことができる。


Teslaが完全自動運転 β版を解放


会話にリアルタイムで字幕をつけ、翻訳してくれるメガネ


表現, 研究


SD 1.5で出力。6000 x 4000に超解像しました。

https://media.discordapp.net/attachments/494697601266876428/1046248005742907392/00821_03.jpg


Stable Diffusion 2生出力事例

EmadさんはSD2.0はfine-tuningをすることで本領を発揮し、DALL-E2やMidjounrneyを超えると話していたので今後の動向が楽しみ。
ただ、リアルな出力はSD2.0単体でもかなりクオリティが高いようです。


Stable Diffusionで映像のフレーム予測

電車からのいくつかのビデオの現在のフレームから次のフレームを予測するようにモデルをトレーニングしたSDモデルで作れられた映像。


Xiaomiが商品告知にStable Diffusion活用


ポーズメーカーソフトMagic Poster→SD2.0 Depth-to-image


NovelAIで三原色操作

以下のネガティブプロンプトで色合いを操作できるようです。なるほど

{{{{{green}}}}}, blue, {{{{{red}}}}},


流行りはnijijourney!

NovelAIよりnijijourney、anything v3あたりの投稿が多く見られるようになってきました。


Chhaviは、Zaha Hadid Architectsのデザインプロセスにおいて、DALL-E 2とMidJourneyの両方を使用して実験を行っている

Chhaviは、Zaha Hadid Architectsのデザインプロセスにおいて、DALL-E 2とMidJourneyの両方を使用して実験を行っていると伝えています。特にDALL.E 2は、現在進行中のメタバースプロジェクトの設計にも使用されています」と詳しく説明します。MidJourneyのようなAIツールの流動的な性質と、データベースや学習データに含まれる多数のザハ・ハディドの画像の存在により、この事務所の作品の特徴的な美学と空間的なアイデンティティを反映した画像を生成することができ、私たちにとって望ましいツールだと思います "と述べています。

http://web.archive.org/web/20221021102409/https://www.lovethatdesign.com/article/midjourney-what-the-experts-say-about-ai-in-architecture-and-design/


マウスの視点「Mouse Pov」 (プロンプト)

https://www.reddit.com/r/NovelAi/comments/z5pdxt/mouse_pov/


研究、


最近話題になったAIエージェントの強化学習環境のまとめ

あと布留川さんが共有していたMineDojoの動画。めっちゃわかりやすいです
なんかAIエージェントの事例見てると直感的に焦りを感じる。


Human or Machine? Turing Tests for Vision and Language


DiffusersベースのDreamBooth(SD2.0対応、Windows対応、必要VRAM 12GB~)


AIの汎化を理解するための軽量なシミュレーション環境「Powderworld」


思想・ムーブメント


私たちは、クリエイティブなソフトウェアの地殻変動の真っ只中にいます。


いずれ、私たちがサードパーティのウェブサイトに作品を掲載するのと同様に、圧倒的多数がオプトインを選択するでしょう

アーティストも要チェック @spawning_ (学習禁止か学習OKか報告できるサイト)をご覧ください。今後のデータセットのためのアーティストのオプトインとオプトアウトに関する作業をチェックしてください。
何千人もの登録者がいるため、どちらかの方向に50:50の割合で進んでいます。いずれ、私たちがサードパーティのウェブサイトに作品を掲載するのと同様に、圧倒的多数がオプトインを選択するでしょう

うみゆきさんの補足


AIアート作成行為の最も優れた点

AI アートを作成することの最も優れた点は、さまざまなスタイルのアートについて学ばなければならないことです。今ほど美術史について勉強したことはありません。


AI アートはクリエイターを排除するものではありません — クリエイティビティの新時代の引き金となります

基本的にこういう記事とかAI系企業の代表の人とかはほぼ全てクリエイターを排除するものじゃなく支援するものという意見しか載ってない感覚。


機械学習にも独自のムーアの法則がある

ダニー・ラング氏(ユニティ・テクノロジーズ、人工知能担当SVP)の講演

以下重要な部分だけ文字起こし(DeepL翻訳)

機械学習には独自の法則があり、18カ月ごとに学習データが2倍になるようです。そして、モデルもどんどん大きくなっています。つまり、基本的にデータが足りなくなってきているのです。そこで、AI開発のブロックを解除するために十分な学習データを作成するための鍵になるのが合成データです。ゲームエンジンを見てみると、1秒間に30フレーム、60フレームの人向けに作られています。シミュレーションを使えば、それを高速化することができます。1秒間に30フレームで1年間の人生を考えたら、10億フレームになります。そう、10億フレームを簡単に生成できるんです。加速度的に。


sabakichiさんの画像生成AIを批判する人へのコメント


Generative AIとNFTの融合についてJasper.aiが「考える」こと


勉強


What are Diffusion Models?


最後に


Twitterに、毎日製作したものや、最新情報、検証を載せたりしています。
よかったら見ていただけたら嬉しいです。

画像生成AIの実験, 最新情報のまとめはこちら


過去の号はこちら


サポートいただけると喜びます。本を読むのが好きなので、いただいたものはそこに使わせていただきます