日刊 画像生成AI (2022年11月24日)
ジェネレーティブAI界は、今とても早いスピードで進化し続けています。
そんな中、毎日時間なくて全然情報追えない..!って人のためにこのブログでは主に画像生成AIを中心として、業界変化、新表現、思考、問題、技術や、ジェネレーティブAI周りのニュースなど毎日あらゆるメディアを調べ、まとめています。
過去の投稿はこちら
ピックアップニュース
Stable Diffusion バージョン2がいきなり公開..!
なんの前触れもなく突如現れたバージョン2…!気抜いてたらすぐドカンと新しいのがきちゃう、やばい。詳細は以下のツイートのリンクに載っていますが、日本語でまとめているのでよかったらどうぞ。
モデルはこちらから
デモページはこちら
ライセンスに関するメモ
しかもなんと..アーティストと有名人、NSFWは削除されている様子。
以下は海外の方の実験。アーティスト名が効かず、グレーな生成になっていることがわかる。生成されたとしても若干反映されるくらい。美しいとは言えない状態。結構これならもう1.5v使うという意見が多数。
あらゆる検閲を経て、Stability AIは結局このような対応をとったのかも..実際はどうなのか気になる。
1.5だと有名人出ていないよ!という報告
ただ実際はEmadさん曰く、意図的に削除はされた訳でなく技術的になくなったということっぽいです。OpenAIのCLIPの方に有名人、アーティストが含まれており、LAIONには入ってないよとのこと。
Stable Diffusionにより、アーティストのコピーやポルノの生成が難しくなり、ユーザーは怒っている
Stable Diffusion 2.0を使う
SD 2.0のtxt2imgノートブック / いぬごやさん, どこかのFくん
この方もSD 2.0vノートブックを公開されているようです。
Google ColabでStable Diffusion 2.0を試す
Emad氏より今後のアップデートについて
Emad氏のDiscordでの発言より、来週にはさらに多くのニュースが出る可能性があり、法的な問題を解決したため新しいリリースはより頻繁に行われるようになるらしいです。とりあえず予告してた、Animation API、Dream Studio Alphaあたりがくる..?
開発
モデルをダウンロードする際の安全を確保する、Stable DiffusionのPickleマルウェアスキャナーGUIが公開
GUIリポジトリはこちら
Windowsアプリはこちら
ドキュメントをアップしたら質問したら答えてくれるデモ
Merge-Stable-Diffusion-models-without-distortion
いい感じにモデルをマージしてくれるツール
Hypernetwork-MonkeyPatch-Extension
Hypernetworkの学習にトリミング不要で、可変解像度学習ができる拡張機能。すごすぎる
CompVisVDenoiser wrapper
v-prediction Stable Diffusionモデルをk-diffusionサンプラーで使用する場合はこれが必要とのこと。
Friday Go
検索をAIで捕捉してくれる、Chrome拡張機能。1番求めている答えをしてくれるらしいです。以下はインストールしてみてGPT-3は何か?聞いてみたやつ。ちゃんと答えてくれてる。
これに似てる、これの逆バージョン。
今はこれも出てる
GoogleがPitchforkを開発中
Businessinsiderから投稿されたこの記事「Googleは、AIにコードの書き方や直し方を教える秘密の新プロジェクトを進めている。将来、人間のエンジニアの必要性を減らすことができるかもしれません。」
どうやらPitchforkというものが開発されているようです。Googleが裏でやってること本当に気になる..
Roope Rainistoさんのリアルな写真用のDreamBoothモデル, Lexica Apertureモデル
AIパズル
Runwayの歴史、今後の計画
表現, 活用
Nijijourney, Midjourney V4の素敵すぎる生成物
ARで自分のおもちゃを1時間以内に操作する方法 (Luma AIなど)
ジェネレーティブAIを使ったWebAR作品の制作 / 8th Wall
研究
Plug-and-Play Diffusion Features for Text-Driven Image-to-Image Translation
より強力なimg2img..?画像とテキストを与えると、画像に忠実なプロンプトを踏まえた画像が生成される。
"人工ニューラルネットワークは、全く学習しない時間を過ごすと、よりよく学習する。学習中のオフライン期間が、コンピューティングシステムにおける「壊滅的な忘却」を緩和した」-ScienceDaily
テキストと画像の両方を検索・生成できる、初の検索支援型マルチモーダルモデル「RA-CM3」が公開
Latent Video Diffusion Models for High-Fidelity Video Generation with Arbitrary Lengths
ノイズから高品質で任意の長さのビデオを生成できる「ライトウェイトビデオ拡散モデル (LVDM)」という新しいフレームワークを提案。自己回帰的に任意の長さのビデオを生成。
拡散モデルによるInversion-Based Creativity Transfer
超ハイレベルなStyle Transfer..?
画像の全体的で詳細な情報を効率的かつ正確に学ぶことができるアテンションベースの逆変換法「Creativity Transfer」の提案
既存のtext-to-imageモデルの長いプロンプトの説明による芸術性の適用や、style transferによる適用に問題を感じ、一枚の絵から直接的に芸術的な創造性(意味要素、材質、物体形状、筆跡、色など)を学び、スタイルを適用できるようにした。
Paint by Example: Exemplar-based Image Editing with Diffusion Models
画像内容の意味的操作を正確に行うための例示を指導する画像編集アプローチの提案。自己教師付きトレーニングを活用して、元画像と例示を分離および再構成する。例示画像をそのままコピー&ペーストするトリビアルな解決策を避けるために、情報ボトルネックと強力な増幅を導入する。
MineDojo
Minecraftをプレイするために構築されたAIフレームワーク。730,000本ものYouTube動画やMiecraft wikiからスクレイピングされた7,000のWebページ、Minecraftに関する340,000のReddit投稿、660,000のコメントを学習しており、「羊の毛を刈って」「ゾンビピッグマンと戦って」「ネザーポータルを見つけて」「床にカーペットを敷いて」などというと、その通りに動いてくれるというやばいやつ。
MineDojoはNeurIPS2022「Outstanding Datasets and Benchmarks Papers」を受賞してます、解説記事が今はもういっぱい上がってるのでどうぞ
Tell Me What Happened
文章に従って部分フレームからビデオを生成するという新しいタスク「テキストガイド付きビデオ補完 (TVC)」の紹介と、このTVCタスクを解決するための「マルチモーダルマスキングビデオ生成 (MMVG)」の提案
DeepMind: Building interactive agents in video game worlds
人間の指示を理解し、オープンエンドな設定で行動を実行できるAIエージェントを作るためのフレームワークについて
機械学習、自然言語処理、完全同型暗号化により、暗号化されたデータに対してセンチメント分析を行う
思想・ムーブメント
なんとAKさん引退…?
論文ツイートをひたすらしてくださっていたAKさんが引退される可能性についてツイート。他同様のサービスもあるし..とのこと。めちゃくちゃAKさんを見ていたのでやばいです
こちらでpatronになれます!!ぜひ!
レイ・カーツワイルと考える2030年代の姿
クリエイティブなメディア間の架け橋となるジェネレーティブAI
AIと私。人工的な創造性の時代
AIは世界を変えるが、「3次元チェス」をして世界を征服することはないだろう
お絵かきAI、育児で活躍 “無限塗り絵”に4歳も夢中
気になるツイート
最後に
Twitterに、毎日製作したものや、最新情報、検証を載せたりしています。
よかったら見ていただけたら嬉しいです。
画像生成AIの実験, 最新情報のまとめはこちら
過去の号はこちら
次の号はこちら
サポートいただけると喜びます。本を読むのが好きなので、いただいたものはそこに使わせていただきます