日刊画像生成AI (2022年11月10日)

やまかず

2022年11月14日 06:27

ジェネレーティブAI界は、今とても早いスピードで進化し続けています。

そんな中、毎日時間なくて全然情報追えない..！って人のためにこのブログでは主に画像生成AIを中心として、業界変化、新表現、思考、問題、技術や、ジェネレーティブAI周りのニュースなど毎日あらゆるメディアを調べ、まとめています。

過去の投稿はこちら

開発

Draw Thingsがリリース

スマホでStableDiffusionが動かせるアプリケーションが公開。
実は過去に別の2人の方からテスト版スマホのSD実装がリリースされているのですが、ちゃんとリリースされたのは初めて他だったからかDraw Thingsは大きく話題に取り上げられました。

Stable Diffusion now runs on your iPhone thanks to @liuliu https://t.co/Gi3j8a9ng8

Blog post about it: https://t.co/cjDFh8fsSX pic.twitter.com/yHKgEyHCqd
— @levelsio (@levelsio) November 10, 2022

話題の無料画像生成AI「Stable Diffusion」をオフラインのiPhoneのみで動かせるアプリ「Draw Things」を使ってみたよレビューhttps://t.co/sRwDdBrvWC
— GIGAZINE(ギガジン) (@gigazine) November 10, 2022

デザインプラットフォーム Canva がテキストから画像への AI 機能を開始

RiverHaveWings氏の拡散ベースのアップスケーラーについて言及

アップスケーラー自体もLAION-2B データセットの高解像度サブセットでトレーニングされており、512x512→1024x1024にできるとのこと。仕組みについても詳しくこちらにまとめられています。

Our very own @RiversHaveWings has trained a latent diffusion-based upscaler.

What does this mean and how does it work? (1/5) https://t.co/uqeU68wlKC
— Stability AI (@StabilityAI) November 10, 2022

The upscaler is itself also a diffusion model. It was trained on a high-resolution subset of the LAION-2B dataset. Being a 2x upscaler, it can take the usual 512x512 images obtained from Stable Diffusion and upscale it to 1024x1024. (2/5)
— Stability AI (@StabilityAI) November 10, 2022

Like Stable Diffusion, the upscaler is itself a latent diffusion model, a diffusion model that operates in a compressed "latent" space, which is "decoded" into a full-resolution image. The upscaler uses the same encoder/decoder & therefore works in the same latent space. (3/5) pic.twitter.com/YPtFv7rQik
— Stability AI (@StabilityAI) November 10, 2022

StableRes βがリリース

あらゆるStableDiffusionのfine-tuningモデル、ツール、Textual inverisonのptファイル、Hypernetwork、Aesthetic Gradientsをまとめたサイトが登場しました。まだリンクされていないものもあるので今後追加していくとのこと。

Anything-V3.0.ckptが発見される

中国の「元素法典」QQグループのメンバーによって作成およびリリースされました Anything-V3.0.ckptが公開されました。~~作成元が不明らしいのと、リークモデルを利用してる可能性もあるので使わない方がいいのかも、~~

📌2022.11.13 2022.11.13時点で中国のコミュニティがNAIのレジュームトレーニングを行なったモデルだというコメントを見かけました
https://twitter.com/EmilyPhase/status/1591648937672601600

📌2022.11.14追記 NovelAIのマージモデルというコメントがあるとご指摘をいただきました。（情報源）使用はやめましょう。リークモデルに関してはStability AIが反対の姿勢をとっており、(ここに関して厳密に法律のどこにあたるかなど理解していないですが多くの方が言うに)リークモデル利用は違法です。(というかそもそもハッキングされて盗まれてるのはダメか) ただ、それを元にマージするのはどうやら違法ではないけど、倫理的にはちょっとなぁ..という話もあります。（情報源）この辺り15日の柿沼さんのセミナーでできたら質問しよう..）

https://www.reddit.com/r/StableDiffusion/comments/yrjvc3/marathon_the_power_of_chinese_novel_ai/

LogseqをGPT-3で支援するツールにDALL-EのAPIが追加

（Logseq は、ローカルのプレーンテキスト Markdown および Org モードファイル上で機能する、プライバシー優先のオープンソースナレッジベース。）

Safe Latent Diffusion: SLD

拡散プロセスにおいて不適切な画像部分を除去し抑制することができ、追加のトレーニングは必要なく、画像品質やテキストアライメントに悪影響を与えることもないことが示された。

Mobile Application Icon Diffusion

モバイルアプリのアイコンを生成するモデルが公開されました。

https://twitter.com/_akhaliq/status/1590645532640575489

DreamBooth Voxel Art Modelが公開

ボクセル表現が作れるDreamBoothモデルが公開されました。

DreamBooth PixelArt モデルが公開

ピクセルアートが作れるDreamBoothモデルが公開されました。プロンプトに「pixelsprite」「16bitscene」を使うことで利用することができます。

https://publicprompts.art/all-in-one-pixel-art-dreambooth-model/

Coda + OpenAI

Notionに似たサービス、CodaでOpenAIのAPIを使えるようになったようです

eDiffiの仕組みと機能を解説

NVIDIAが発表した最高性能の画像生成AI「eDiffi」の仕組みと機能
eDiffiの2つの特徴、単語でお絵かき、スタイル転送、他の画像生成AIとの比較｜IT navi @itnavi2022 #note https://t.co/7zx7P2O2dl
— IT navi (@itnavi2022) November 10, 2022

表現

Midjourney 別のRemixモード検証

Hirokazu YokoharaさんのMidjourney V4のRemix機能の2つ画像を混ぜれる機能の検証。すごい…。どういう仕組みなんだろう、高速でTextual inversion的なことが裏側でされていてっていうことなんでしょうか。本当にここの部分識者の方にお聞きしてみたいです

コレ凄い！Midjourney v4のRemixの新しい機能触った。生成した画像や自分の画像など2つをミックスして新たな画像を作れる。めちゃくちゃクオリティ高くて実用性高い pic.twitter.com/pwJCJPl7Bf
— Hirokazu Yokohara (@Yokohara_h) November 9, 2022

画像生成AIで3Dモデルをアニメ風に置き換え実験

前回の手法を踏まえて
フレームレートを抑えることで安定感とアニメっぽさを出してみました#NovelAI #NovelAIDiffusion pic.twitter.com/OukMD0PH1i
— エクスヴェリア【nZk】【emU】 (@nZk1015) November 9, 2022

Stable Diffusion WEB UIのimg2imgにBatch単位での変換機能があるのでそれを使用してCOM3D2のダンス動画を30FPSの静止画648枚で書き出し→変換→再結合
ついでにHypernetwork使用時の固定アングル同一seed値でのキャラデザの連続性の担保テスト#画像生成AI #潤羽美術館 #AI潤羽るしあ pic.twitter.com/dSO5g1MDpC
— 高杉　光一🦋 (@kuronagirai) November 10, 2022

果物と動物の雑種

https://www.reddit.com/r/midjourney/comments/yrd4jk/fruit_and_animal_hybrids/

研究、検証

アップスケーラーはRemacriが一番いいよね〜という話

ESRGAN、SwinIR、UltraSharpなど色々あるけどRemacriが一番いいと記載があったので比較サイトで見てみたら確かに一番ノイズがなく綺麗で、再現度が高かった。

一枚の画像だけでDreamBoothモデルを作成する

Thin-Plate Spline Motion Model for Image Animationを使って画像を増やすことでなんとかしてる。
（11月12日時点では、1枚で学習できるDreamArtistが公開されています。）

高品質でスタイルの一貫したゲームアセットを作成するための信頼できる方法

I've explored a reliable method to create high-quality, style-consistent #game assets w. #StableDiffusion

We're just scratching the surface here & I believe this can become a very potent creation tool (like a "@procreate on AI-steroids"🤔)

A demonstration with... spellbooks 🧵 pic.twitter.com/ET2DF4NQRq
— Emm (@emmanuel_2m) November 10, 2022

思想・ムーブメント

ジェネレーティブAIは階乗関数曲線で成長する

「ねえ、GitHub!」プログラマーが声だけでコーディングできるようにする

似ている記事はこちら「GitHub は、開発者が自分の声でコーディングできるようにする新しいCopilot 機能をほのめかす」

Midjourney の創設者である David Holz 氏へのジェネレーティブ AI、VR、およびシリコンバレーに関するインタビュー

ジェネレーティブAIが2022 年に解決した10 の複雑な問題

インフォグラフィック: クリエイターはジェネレーティブ AIについてどう考えているか?

AIを活用した画像から3Dモデルへ

ビッグコンテンツがジェネレーティブ AI 戦争に勝つ方法

最後に

Twitterに、毎日製作したものや、最新情報、検証を載せたりしています。
よかったら見ていただけたら嬉しいです。

Tweets by Yamkaz

画像生成AIの実験, 最新情報のまとめはこちら

過去の号はこちら

次の号はこちら

サポートいただけると喜びます。本を読むのが好きなので、いただいたものはそこに使わせていただきます

日刊 画像生成AI (2022年11月10日)

開発