見出し画像

日刊 画像生成AI (2022年11月19-20日)

ジェネレーティブAI界は、今とても早いスピードで進化し続けています。

そんな中、毎日時間なくて全然情報追えない..!って人のためにこのブログでは主に画像生成AIを中心として、業界変化、新表現、思考、問題、技術や、ジェネレーティブAI周りのニュースなど毎日あらゆるメディアを調べ、まとめています。

"パラダイムシフト"


📣お知らせ
ジェネレーティブAIで取り組みたい事業があり現在進めていますが、
Webアプリケーション開発ができ今後一緒に取り組める方を探しています。
言語, 環境: AWS, React native, Python, Flutter, …など

もし興味がありましたら、TwitterでDMをいただけますと幸いです🙇

OpenAI Startup Fundに提出したよ😆


過去の投稿はこちら


開発


元素法典 2.5巻が公開!


あるふさんのCool Japan Diffusion進歩共有


Haruさん(WD開発者)がArtstation-Diffusionが公開


VRoidの衣服アセットでトレーニングされたモデルが公開

Anything V3ベースで、VRoid衣装アセットでトレーニングしたモデル。でもここまで行くとAnything V3がNovelAIリーク使ってるよねとかもうどうでも良くなるくらい違うものになっている。

https://www.reddit.com/r/StableDiffusion/comments/z09inh/img2ass_3d_cloth_generator/


StableDiffusion+DALLE2 for Photoshop by Cantrellに新しいinpaintingモデルを追加するらしい

StabilityAIのプロダクト担当副社長のCantrellさんのプロダクトに新しいinpaintingモデル(runwayの1.5モデル?)が追加されるようです。


Art of MtG v1モデルが公開

このモデルは、Dreambooth でトレーディング カード ゲーム Magic: the Gathering の約 5000 アートでトレーニングされ、アーティストや画像に関連するさまざまな情報が適切にタグ付けされています。

https://www.reddit.com/r/StableDiffusion/comments/yzzadb/new_magic_the_gathering_model_artofmagic_includes/


Nagel inspired model v1が公開


Yoji Shinkawaモデルが公開


(ここから少し画像生成AIと離れます)

Clip.audioがリリース


OneFormerのdemoが公開

研究としては、一度学習すれば3つの画像セグメンテーションタスク(セマンティックセグメンテーション、インスタンスセグメンテーション、パノプティックセグメンテーション)すべてにおいてSOTA性能を達成できる、真に普遍的な画像セグメンテーションフレームワークを開発することが目的。

このOneFormerモデルは、ADE20k、CityScapes、COCOの3つのセグメンテーションタスクすべてにおいて、Mask2Formerモデルが3倍のリソースで3つのタスクそれぞれについて個別に学習したにもかかわらず、Mask2Formerモデルを上回る性能を発揮するらしいです。そのdemoが公開。

OneFormerのArxivはこちら


UniformerV2のHuggingface demoが公開

動画からキャプション生成できている。野球ボールを打ってる動画を入力して「hitting baseball」と出力されてる。

UniformerV2は、識別可能な時空間表現を学習するための新しいパラダイム。つまり動画からキャプションを生成するモデル..?

このアプローチは既存のVision Transformer (ViT)モデルをベースとし、性能向上のためにnew localおよびglobal relation aggregatorsを追加したものらしい。Kinetics-400, Kinetics-600, Kinetics-700, Moments in Time, Something-Something V1, Something-Something V2, ActivityNet, HACSといった8つの有名なビデオベンチマークにおいて既存のモデルより優れた性能を発揮することができるとのこと。


大きくしない方がいい。
GPT-3の品質を0.1%のコストで手に入れる方法

データを中心としたアプローチがどのようにモデルのサイズを縮小し、パフォーマンスを向上させ、モデルのトレーニングとデプロイのコストを削減するために使用できるかについて。

ただ、全ての基盤モデルの性能向上、コスト削減にはならないらしい。


表現


Disturbed - Bad Man [Official Music Video]

Midjourneyの画像で構成されているミュージックビデオをDisturbedが公開。制作に1ヶ月を要したそうです。すげぇ!


Izumi Satoshiさん、DreamBoothで元動画を学習させ破綻を防ぎつつ、プロンプトで任意の絵柄を適応する

izumi satoshiさんの実験。めちゃくちゃ上手くっている。かわいい。
これ見てさこゆい体操にハマってしまいずっと聞いてる..


映画の風景みたいなMidjourney v4出力物

このクオリティで動画生成できる未来楽しみすぎる。


30分でStable DiffusionとBlenderで宇宙船の3Dモデルを作ってる事例


私の2人の友人の写真で訓練されました(ワークフロー有)


研究、検証など


Disco Diffusion Artist Study

proximaさん、KyrickYoungさんなど古参勢がやってるプロジェクト、DiscoDiffusion Artist Studies が本日正式に終了。
4,243 のスタイルを完成がまとめられています。すごい!


ResNet guided Stable Diffusion


StableDiffsionで作るウォーキングのアニメーション事例


Lattent Diffusion modelによる超解像


サンプラーの得意、不得意まとめ

やっぱりddimいいですよね!個人的にもddim一番好き。


世界での画像生成AIサービス比較調査


Nijijourneyざっくり感想


電々さんのNovelAI、年齢の表現まとめ


メモ: 「#」など特殊文字で好きなモデルを整理できるよ

https://www.reddit.com/r/StableDiffusion/comments/z01ctj/you_can_organize_your_models_with_automatic_1111/


プロンプトの影響の与え方の図


Automatic1111 の WebUI を使用するための Noob ガイド


思想・ムーブメント, ブログ, メモ


Mira Murati - DALL-E 2とAIの力|The Daily Show

(3週間前のもので拾えていなかったもの)
OpenAI最高技術責任者のMira Muratiさんが、『DALL-E 2』の創造力、AIを使うことで生じる倫理的・道徳的問題、そして人工知能がどのように社会の想像力を高め、形づくることができるかについて語っています。

概要のメモ

AIはどうやって画像を作るの?
画像をコピーしているのではないからです。何もないところからイメージを作り出しているのです。このことに恐怖を感じる人たちがいます。
どうやって防ぐのか、あるいは完全に防ぐことができるのか?

あなたのチームは、仕事や人生の大きな意味、あるいは人間が持つ目的についても考えていますか?
AIが人々の仕事とは何かを徐々に奪っていくと、同じ目的を持たなくなった人々の層が厚くなっていくことでしょう。他の革命と同じように、新しい仕事が生まれ、愛される仕事も出てくるとは思います。


画像と言葉。2026年のAI

(前に載せていたらごめんなさい。)


【悲報】AI絵師さん、頼まれてもないのに他人のイラストをAIアレンジしてしまう


コマーシャル アート テクノロジーの波に乗ってきた 40 年間を振り返る

https://www.reddit.com/r/StableDiffusion/comments/yznvqy/reflections_on_40_years_of_riding_the_commercial/


AI を使用して 12 年間のテレビ出演を研究


AIアートは本当にアートなのか?カリフォルニアのギャラリーは「イエス」と言う


検索の黄昏


AIの可能性を広げる新チップ

https://www.quantamagazine.org/a-brain-inspired-chip-can-run-ai-with-far-less-energy-20221110/


ニューラル言語モデルは実際には非常に長い間存在していましたが、今日の範囲に近いところは誰も気にしていませんでした


Search is Overfitted Create; Create is Underfitted Search

「Generative AIは、今後ニューラル検索にとって最大の競争相手となるかもしれない。」であったり「検索と創造は表裏一体。」など


勉強


5分以内にHFにDreamBoothのDemoをアップロードする

あまり知らなかったのでメモ。こんな感じでアップできるんですね


最後に


Twitterに、毎日製作したものや、最新情報、検証を載せたりしています。
よかったら見ていただけたら嬉しいです。

画像生成AIの実験, 最新情報のまとめはこちら


過去の号はこちら

サポートいただけると喜びます。本を読むのが好きなので、いただいたものはそこに使わせていただきます