日刊画像生成AI (2022年11月24日)

やまかず

2022年12月8日 00:15

ジェネレーティブAI界は、今とても早いスピードで進化し続けています。

そんな中、毎日時間なくて全然情報追えない..！って人のためにこのブログでは主に画像生成AIを中心として、業界変化、新表現、思考、問題、技術や、ジェネレーティブAI周りのニュースなど毎日あらゆるメディアを調べ、まとめています。

過去の投稿はこちら

ピックアップニュース

Stable Diffusion バージョン2がいきなり公開..！

なんの前触れもなく突如現れたバージョン2…！気抜いてたらすぐドカンと新しいのがきちゃう、やばい。詳細は以下のツイートのリンクに載っていますが、日本語でまとめているのでよかったらどうぞ。

We are excited to announce the release of Stable Diffusion Version 2!

Stable Diffusion V1 changed the nature of open source AI & spawned hundreds of other innovations all over the world. We hope V2 also provides many new possibilities!

Link → https://t.co/QOSSmSRKpG pic.twitter.com/z0yu3FDWB5
— Stability AI (@StabilityAI) November 24, 2022

Excited to announce the release of Stable Diffusion 2.0!

Many new features in v2:

• Base 512x512 and 768x768 models trained from scratch with new OpenCLIP text encoder
• X4 upscaling text-guided diffusion model
• New “Depth2Image” functionality

Blog: https://t.co/o3udlBN8uz pic.twitter.com/2jky7F3Zx7
— hardmaru (@hardmaru) November 24, 2022

Stable Diffusion バージョン2が公開！https://t.co/GPpNQBOzPf
(概要はリプ欄にまとめます) pic.twitter.com/7FhJubrW6w
— やまかず (@Yamkaz) November 24, 2022

モデルはこちらから

デモページはこちら

ライセンスに関するメモ

Stable Diffusion 2.0のモデル自体はここからダウンロードすればいいのかな？
ただライセンス関連に若干の変更が入ってるっぽい…？
CreativeML Open RAIL++-M ってやつになってる…？https://t.co/52jtspJM4W
— 高杉　光一🦋 (@kuronagirai) November 24, 2022

しかもなんと..アーティストと有名人、NSFWは削除されている様子。
以下は海外の方の実験。アーティスト名が効かず、グレーな生成になっていることがわかる。生成されたとしても若干反映されるくらい。美しいとは言えない状態。結構これならもう1.5v使うという意見が多数。
あらゆる検閲を経て、Stability AIは結局このような対応をとったのかも..実際はどうなのか気になる。

1.5だと有名人出ていないよ！という報告

ただ実際はEmadさん曰く、意図的に削除はされた訳でなく技術的になくなったということっぽいです。OpenAIのCLIPの方に有名人、アーティストが含まれており、LAIONには入ってないよとのこと。

"はっきり言っておくが、このモデルから審議で外されたアーティストはいない。それは次のようなものです。最後のモデルは、LAION（オープンモデル、オープンデータセット）で学習させた生成モデルを、OpenAI（オープンモデル、データセットがわからない）のCLIPで条件付けしたものです。これは、LAIONのデータセットにないものを知っていることを意味し、モデルにあるもの／ないものをコントロールすることは非常に困難でした。この新しいモデルは、OpenCLIP（オープンモデル、LAIONデータセット、100万A100時間）と、LAIONで学習させた生成モデルを持っているので、すべてをチェックすることが可能です。OpenAIには有名人やアーティストがたくさんいますが、LAIONにはいません。ですから、それらが必要な場合は、また微調整する必要があります。"

Stable Diffusionにより、アーティストのコピーやポルノの生成が難しくなり、ユーザーは怒っている

Stable Diffusion 2.0を使う

SD 2.0のtxt2imgノートブック / いぬごやさん, どこかのFくん

Stable Diffusion 2.0のtxt2imgノートブックをギリギリ無料で動くように修正しました。
いつ止まってもおかしくないぐらいギリギリhttps://t.co/t8GCV2Q5Xq https://t.co/YkWPfuxhDB
— いぬごや (@thx0pw) November 24, 2022

この方もSD 2.0vノートブックを公開されているようです。

@EMostaque #stablediffusion

Playing with stable diffusion 2.0. Can you guess which one is 2.0 and which one is 1.4? First prompt was from macbeth and the second was pulled randomly from reddit r/showerthoughts titles

run with colab: https://t.co/t2VrYNWcbx pic.twitter.com/6r6297cvKb
— Kenneth Goodman (@pythonprimes) November 24, 2022

Google ColabでStable Diffusion 2.0を試す

Emad氏より今後のアップデートについて

Emad氏のDiscordでの発言より、来週にはさらに多くのニュースが出る可能性があり、法的な問題を解決したため新しいリリースはより頻繁に行われるようになるらしいです。とりあえず予告してた、Animation API、Dream Studio Alphaあたりがくる..？

開発

モデルをダウンロードする際の安全を確保する、Stable DiffusionのPickleマルウェアスキャナーGUIが公開

https://www.reddit.com/r/StableDiffusion/comments/z2zu2x/keep_yourself_safe_when_downloading_models_pickle/

GUIリポジトリはこちら

Windowsアプリはこちら

ドキュメントをアップしたら質問したら答えてくれるデモ

Merge-Stable-Diffusion-models-without-distortion

いい感じにモデルをマージしてくれるツール

Hypernetwork-MonkeyPatch-Extension

Hypernetworkの学習にトリミング不要で、可変解像度学習ができる拡張機能。すごすぎる

待って待って！？
Hypernetworkの学習にトリミングが要らなくなるの…！？
たった今の今までの自分のやってた作業は一体！？
だけどそれらを抜きにしても可変解像度学習ができるって革命そのものでは！？https://t.co/V9oc6viEru
— 高杉　光一🦋 (@kuronagirai) November 23, 2022

CompVisVDenoiser wrapper

v-prediction Stable Diffusionモデルをk-diffusionサンプラーで使用する場合はこれが必要とのこと。

If you want to use the new v-prediction Stable Diffusion models with k-diffusion samplers, you need to use the new CompVisVDenoiser wrapper that I added today: https://t.co/mJZq06TZaC
— Rivers Have Wings (@RiversHaveWings) November 24, 2022

Friday Go

検索をAIで捕捉してくれる、Chrome拡張機能。１番求めている答えをしてくれるらしいです。以下はインストールしてみてGPT-3は何か？聞いてみたやつ。ちゃんと答えてくれてる。

これに似てる、これの逆バージョン。

Web検索でChatGPTを強化するChrome拡張
「ChatGPT Advanced」が公開！https://t.co/b1MwrhJy0e

検索結果と一緒に"このWeb検索の結果を考慮してこの質問に答えて"という文言が一緒に入力されることでAIが知らないことも答えることができるpic.twitter.com/vGxk0nFmFs https://t.co/tOuR35nTHZ
— やまかず (@Yamkaz) December 6, 2022

今はこれも出てる

Google検索をするとChatGPTの回答も表示してくれるブラウザ拡張機能「ChatGPT for Google」https://t.co/DRSITqmczn
— GIGAZINE(ギガジン) (@gigazine) December 7, 2022

GoogleがPitchforkを開発中

Businessinsiderから投稿されたこの記事「Googleは、AIにコードの書き方や直し方を教える秘密の新プロジェクトを進めている。将来、人間のエンジニアの必要性を減らすことができるかもしれません。」
どうやらPitchforkというものが開発されているようです。Googleが裏でやってること本当に気になる..

Roope Rainistoさんのリアルな写真用のDreamBoothモデル, Lexica Apertureモデル

World Camera

Took my Dreambooth model for 'realistic photos' from yesterday - ran it with the same prompt, but with a tiny addition: each prompt now explicitly mentions a (random) nationality.

Suddenly the world is not just white Western people. #stablediffusion #ai #photo pic.twitter.com/UJFZPtuZCv
— Roope Rainisto (@rainisto) November 24, 2022

Here’s a few generated 'Humans of New York' style photos from the @LexicaArt Aperture model.

Framing and composition is decent, but it struggles with finer details like the chess board.

If you want to beta test it send me a DM with your email. pic.twitter.com/ycJdXDoWDz
— Sharif Shameem (@sharifshameem) November 23, 2022

AIパズル

Runwayの歴史、今後の計画

表現, 活用

Nijijourney, Midjourney V4の素敵すぎる生成物

【急募】こういう絵柄を安定供給できるプロンプト#nijijourney #aiart pic.twitter.com/oIRpY4f5bO
— とほがえる (@tohofrog) November 24, 2022

この背景デザイン好き#nijijourney #aiart pic.twitter.com/N0A30TW6gy
— とほがえる (@tohofrog) November 24, 2022

AI 無編集#midjourney の二次元版AI #nijijourney のクオリティがすごい pic.twitter.com/KwvkNiZGlZ
— 852話 (@8co28) November 23, 2022

#nijijourney pic.twitter.com/icWSOtbJKd
— 852話 (@8co28) November 23, 2022

I asked an AI to create pictures of Indonesian princesses. #midjourney pic.twitter.com/teaux2qmPn
— Herman Saksono (he/him) (@hermansaksono) November 24, 2022

ARで自分のおもちゃを1時間以内に操作する方法 (Luma AIなど)

1/5
Bring our toys to live part 2!⁰How to make control of your real toy in AR in an hour.

- Luma AI
- Cinema4D/Blender
- Mixamo
- EffectHouse (AR for TikTok) pic.twitter.com/a8wAdz87Ua
— Sergei Galkin (@sergeyglkn) November 22, 2022

ジェネレーティブAIを使ったWebAR作品の制作 / 8th Wall

研究

Plug-and-Play Diffusion Features for Text-Driven Image-to-Image Translation

より強力なimg2img..？画像とテキストを与えると、画像に忠実なプロンプトを踏まえた画像が生成される。

"人工ニューラルネットワークは、全く学習しない時間を過ごすと、よりよく学習する。学習中のオフライン期間が、コンピューティングシステムにおける「壊滅的な忘却」を緩和した」-ScienceDaily

AIも睡眠をとると学習が改善すると判明！https://t.co/SARf97HnJg

米カリフォルニア大は人間の脳を模したAI「ニューラルネット」に生物の睡眠を模倣する「オフライン期間」を導入することでよりよい学習が実現したと発表。AIも人間の脳と同じく睡眠によって記憶の定着と統合が実現するようです pic.twitter.com/ZOXpaCrIhf
— ナゾロジー@科学ニュースメディア (@NazologyInfo) November 24, 2022

テキストと画像の両方を検索・生成できる、初の検索支援型マルチモーダルモデル「RA-CM3」が公開

META等が内部パラメタ＋”外部知識検索（テキストor画像orそのペア）”で下記画像タスク全て扱える初めてのマルチモーダルAIモデルRA-CM3発表！
キャプション、画像生成能力の大幅向上。また、画像分類や補完や複数画像文脈融合(incontext learning)も可。さらにテキストや画像のみの検索性能を超える。 https://t.co/nTAEYUaa8T pic.twitter.com/vxukqClvyI
— bioshok(INFJ) (@bioshok3) November 24, 2022

Latent Video Diffusion Models for High-Fidelity Video Generation with Arbitrary Lengths

ノイズから高品質で任意の長さのビデオを生成できる「ライトウェイトビデオ拡散モデル (LVDM)」という新しいフレームワークを提案。自己回帰的に任意の長さのビデオを生成。

拡散モデルによるInversion-Based Creativity Transfer

超ハイレベルなStyle Transfer..？

画像の全体的で詳細な情報を効率的かつ正確に学ぶことができるアテンションベースの逆変換法「Creativity Transfer」の提案

既存のtext-to-imageモデルの長いプロンプトの説明による芸術性の適用や、style transferによる適用に問題を感じ、一枚の絵から直接的に芸術的な創造性（意味要素、材質、物体形状、筆跡、色など）を学び、スタイルを適用できるようにした。

Paint by Example: Exemplar-based Image Editing with Diffusion Models

画像内容の意味的操作を正確に行うための例示を指導する画像編集アプローチの提案。自己教師付きトレーニングを活用して、元画像と例示を分離および再構成する。例示画像をそのままコピー＆ペーストするトリビアルな解決策を避けるために、情報ボトルネックと強力な増幅を導入する。

MineDojo

Minecraftをプレイするために構築されたAIフレームワーク。730,000本ものYouTube動画やMiecraft wikiからスクレイピングされた7,000のWebページ、Minecraftに関する340,000のReddit投稿、660,000のコメントを学習しており、「羊の毛を刈って」「ゾンビピッグマンと戦って」「ネザーポータルを見つけて」「床にカーペットを敷いて」などというと、その通りに動いてくれるというやばいやつ。

GPT3 is powerful but blind. The future of Foundation Models will be embodied agents that proactively take actions, endlessly explore the world, and continuously self-improve. What does it take? In our NeurIPS Outstanding Paper “MineDojo”, we provide a blueprint for this future:🧵 pic.twitter.com/YZps22n9pA
— Jim (Linxi) Fan (@DrJimFan) November 23, 2022

MineDojoはNeurIPS2022「Outstanding Datasets and Benchmarks Papers」を受賞してます、解説記事が今はもういっぱい上がってるのでどうぞ

Tell Me What Happened

文章に従って部分フレームからビデオを生成するという新しいタスク「テキストガイド付きビデオ補完 (TVC)」の紹介と、このTVCタスクを解決するための「マルチモーダルマスキングビデオ生成 (MMVG)」の提案

DeepMind: Building interactive agents in video game worlds

人間の指示を理解し、オープンエンドな設定で行動を実行できるAIエージェントを作るためのフレームワークについて

機械学習、自然言語処理、完全同型暗号化により、暗号化されたデータに対してセンチメント分析を行う

思想・ムーブメント

なんとAKさん引退…？

論文ツイートをひたすらしてくださっていたAKさんが引退される可能性についてツイート。他同様のサービスもあるし..とのこと。めちゃくちゃAKさんを見ていたのでやばいです

Thinking of retiring from paper tweets it’s pretty time intensive on top of a full time job, I had a good run so far. Plus all the companies offering similar services now
— AK (@_akhaliq) November 24, 2022

こちらでpatronになれます！！ぜひ！

If you like what I do, consider supporting me on patreon

I do arxiv paper tweets outside of a full time job so it can become time intensive like a second job, thanks for the support 🙏

patreon: https://t.co/uOAMNDczGM
— AK (@_akhaliq) December 6, 2022

レイ・カーツワイルと考える2030年代の姿

クリエイティブなメディア間の架け橋となるジェネレーティブAI

AIと私。人工的な創造性の時代

AIは世界を変えるが、「3次元チェス」をして世界を征服することはないだろう

お絵かきAI、育児で活躍　“無限塗り絵”に4歳も夢中

お絵かきAI、育児で活躍　“無限塗り絵”に4歳も夢中https://t.co/gj2T6n4iBl pic.twitter.com/2B6DkWat3G
— ITmedia NEWS (@itmedia_news) November 24, 2022

気になるツイート

なるほど。前後で行われている発言も興味深い。無意味のノイズから偏りを生み出していることはすでにAIが行う創造行為だと。 https://t.co/c1e371isfE
— 新清士『メタバースビジネス覇権戦争』発売中 (@kiyoshi_shin) November 24, 2022

機械学習の形は多分変わるし、皆がグラフィク処理由来の特殊ユニットでGPGPUとかやってるのも多分今だけなんですが、MLPは関数同士の相関計算として、CNNはシフト値込みの相関計算として残ります。AttentionもKey-Value Storeとして残る？Transformerはよくわかってなくて消えるかもと思ってます。
— でべろぱ (@ai_prompt_dev) November 24, 2022

最後に

Twitterに、毎日製作したものや、最新情報、検証を載せたりしています。
よかったら見ていただけたら嬉しいです。

Tweets by Yamkaz

画像生成AIの実験, 最新情報のまとめはこちら

過去の号はこちら

次の号はこちら

サポートいただけると喜びます。本を読むのが好きなので、いただいたものはそこに使わせていただきます

日刊 画像生成AI (2022年11月24日)