日刊 画像生成AI (2022年11月17-18日)
ジェネレーティブAI界は、今とても早いスピードで進化し続けています。
そんな中、毎日時間なくて全然情報追えない..!って人のためにこのブログでは主に画像生成AIを中心として、業界変化、新表現、思考、問題、技術や、ジェネレーティブAI周りのニュースなど毎日あらゆるメディアを調べ、まとめています。
過去の投稿はこちら
開発
InstructPix2Pix
人間の指示から画像編集 「ひまわりとバラを交換」「空に花火を追加」「雪が降っていたら?」などを入力すると数秒で画像編集してくれる「InstructPix2Pix」が発表されました。
2つの大規模な事前学習済みモデル、GPT-3、Stable Diffusionを組み合わせて、大規模な画像編集例データセットを生成。生成されたデータを用いて学習した条件付き拡散モデルが「InstructPix2Pix」。このモデルはフォワードパスで編集を行い、fine tuningやinversionを必要としないため、数秒のうちに高速に画像を編集することができるとのこと
Direct Inversion
拡散モデルを用いた最適化不要のテキスト駆動型実画像編集方法。
使いやすいローカルインストールのSD実装「ArtRoom」が公開
これまで出てきたSD実装のなかでもぱっと見シンプルでかっこいい。NVIDIA GPU のみをサポートし、8GB VRAM(最小 4GB)を推奨とのこと。
ここからダウンロードできます。
Discordサーバーもありました。
Kive AI Canvas
みんなで巨大なキャンバスに画像生成をしていくサービスKive AI Canvasが公開。マルチプレイSDサービスとしては3つ目の発見だけど、一番サービスとしてちゃんとしてる。
AI作品の投稿サイト「AIPIC」
AI画像投稿サイト、AIPICが公開。開発者の方は中学生のFくんという方。
(こちら、15日に追えていなかったもの)
Null-text Inversion
ガイド付き拡散モデル(Stable Diffusion)を用いた実画像編集のためのNull-text Inversionが発表。
物体検出のための拡散モデル「DiffusionDet」
手を綺麗に描く新しい方法
逆に変形した手を学習させて、ネガティブプロンプトに使ったら手がちゃんとかけるという事例。なるほど..、人間のクリエイターさんと同じでダメな例を学習させればちゃんと良くなるの面白い。
EimisAnimeDiffusion 1.0vが公開
高画質で詳細なアニメ画像を用いて学習したモデルが公開。アニメと風景画像で本領を発揮するとのこと。
高杉さんのメモ。これ見るとAnything-V3.0のfine-tuningモデルかな..?ってことはNovelAIリークモデルを利用しているから使えない、?
Fantastic Mr Fox Diffusionが公開
プロンプトに「fantasticmrfox」を使うことで利用することができます。狐以外に適用したい場合はネガティブプロンプトにfoxを入れるといいとのこと。
Pixel Art Diffusion by KaliYuga
Stability AIに現在は所属しているKali YugaさんがついにPixel Art Diffusion公開..かも。DALL-E2からMidjourneyまでの間のオープンソース界隈からいらっしゃて、オリジナルモデルを複数作られて、過去にDisco DiffusionのPixel Art Diffusionを作られていたKali YugaさんがSDで新しいモデルもうすぐ公開されるかもです。 品質がかなり高そうです。
Nitro Diffusion
優れたコントロールと驚異的な汎用性を持ったマルチスタイルモデル、Nitro Diffusionが公開されました。
Painting Generator
ブラッシュストロークに訓練されたモデル、素敵な結果を得るために、任意のアーティスト名やスタイルを置く必要はないとのこと。Loopbackを使ってもいい感じのようです。
Diffusion Land
画像を作成し、MJ、SD、および DALLE2 の高度なプロンプトを作成するためのシンプルなツール「Diffusion Land」が公開。これまで出てきたSD実装サービスの中で一番シンプルかも。CFGとSeedとか色々無くした設計が素晴らしい。
次世代の大規模言語モデルはあなたの心を吹き飛ばし、あなたのビジネスを混乱させます
なるほど..面白い。アイアンマンに出てくるJarvisに向かってゆく。
Optimusみたいなのが世界を歩き回ってる時代になって、それが見た映像も検索して持ってこれるようになったら完全に人間には勝ち目が無くなりそう。
JukeboxWebUI v0.3
画像生成AIじゃないけどメモ。JukeboxのWebUIがアップデート。
NVIDIAがMicrosoftと協力して大規模なクラウドAIコンピューターを構築すると発表
(ポイントまとめ)Microsoft Azureがベース、AIの分散トレーニングと推論用に最適化された仮想マシンが含まれている、NVIDIAとしては初となる「高度なAIスタックを組み込んだパブリッククラウド」、世界で最も強力なAIスーパーコンピューターの1つにすることを目指すとのこと。
Playground AIがデータセットを公開
StableDiffusionが利用でき、生成画像もたくさん見れるサイト、Playground AIで、いいねされた画像とプロンプトのデータセットが公開されたようです。
高品質なゲームアセット生成の作成マシンがもうすぐリリース
Revel.xyz
http://Revel.xyzで、AI によって作成された収集品を作成、鋳造、および取引ができるようです。StabilityAIのAPIを利用しているとのこと。
オーディオ・音楽生成の最新動向
スタンフォード大学、LLMを理解するための初のAIベンチマーク「HELM」を公開
大事なところだけピックアップ
表現
美しい…. SD風景の生成画像
プロンプトとしては、スタイルとして、"by alexi zaitsev, by Antoine Blanchard, by Brent Heighton, by Jeremy Mann" よりいい絵を出すために、"masterpiece, intricate, 8k", ネガティブプロンプトには、"name, tiled, frame, border, lowres, signs, memes, labels, text, error, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry"を利用しているとのこと。
TikTokでプチ伸びているi2i動画
おそらく3DモデルをnovelAIでi2iしている動画がプチ伸びていました。
めちゃめちゃ魅力的だからもっと見たい..、結構需要ありそう。
The strange case of the "grandmas fever" (12 august 1991)
Redditでこの日トップだった作品。Midjourney v4が生成する映画風の写真生成素晴らしすぎる。こういう作品個人的に好きなのでどんどん溢れ出してほしい。
研究
「前方優位の法則」と「色が混ざる現象」の根拠
Can't Believe There's No Images!言語データのみを用いた視覚的タスクの学習
男性らしさを表す表現と「なぜ絵が女性化してしまうのか?」についての考察、対処法について
思想・ムーブメント
Animé LA での議論、今後の対応
ロスのアニメコンベンションはめちゃくちゃ厳しい対応をとっています。
DeepLの翻訳だけどこちらに添付。
ジェネレーティブ AI は、3D 以来、ゲーム業界に起こった最大の出来事、何が起こるでしょうか?
ゲームにおけるジェネレーティブAI革命
プロンプトチャレンジ:映画を見ているミツバチ
海外でもプロンプトチャレンジが起きている。
Search is Overfitted Create; Create is Underfitted Search
近い将来の AI はアクション駆動型であり、AGI によく似たものになるでしょう
脳のダイナミクスを解くと、柔軟な機械学習モデルが生まれます
ジェネレーティブ AI が創造的な仕事をどのように変えているか
AIにできないこと
創発、スケーリング、帰納的バイアスについて
勉強
拡散モデルと基盤モデルの関係について
最後に
Twitterに、毎日製作したものや、最新情報、検証を載せたりしています。
よかったら見ていただけたら嬉しいです。
画像生成AIの実験, 最新情報のまとめはこちら
過去の号はこちら
次の号はこちら
サポートいただけると喜びます。本を読むのが好きなので、いただいたものはそこに使わせていただきます