見出し画像

日刊 画像生成AI (2022年11月10日)

ジェネレーティブAI界は、今とても早いスピードで進化し続けています。

そんな中、毎日時間なくて全然情報追えない..!って人のためにこのブログでは主に画像生成AIを中心として、業界変化、新表現、思考、問題、技術や、ジェネレーティブAI周りのニュースなど毎日あらゆるメディアを調べ、まとめています。

"新しい設計"


過去の投稿はこちら


開発


Draw Thingsがリリース

スマホでStableDiffusionが動かせるアプリケーションが公開。
実は過去に別の2人の方からテスト版スマホのSD実装がリリースされているのですが、ちゃんとリリースされたのは初めて他だったからかDraw Thingsは大きく話題に取り上げられました。


デザインプラットフォーム Canva がテキストから画像への AI 機能を開始


RiverHaveWings氏の拡散ベースのアップスケーラーについて言及

アップスケーラー自体もLAION-2B データセットの高解像度サブセットでトレーニングされており、512x512→1024x1024にできるとのこと。仕組みについても詳しくこちらにまとめられています。


StableRes βがリリース

あらゆるStableDiffusionのfine-tuningモデル、ツール、Textual inverisonのptファイル、Hypernetwork、Aesthetic Gradientsをまとめたサイトが登場しました。まだリンクされていないものもあるので今後追加していくとのこと。


Anything-V3.0.ckptが発見される

中国の「元素法典」QQグループのメンバーによって作成およびリリースされました Anything-V3.0.ckptが公開されました。作成元が不明らしいのと、リークモデルを利用してる可能性もあるので使わない方がいいのかも、

📌2022.11.13 2022.11.13時点で中国のコミュニティがNAIのレジュームトレーニングを行なったモデルだというコメントを見かけました
https://twitter.com/EmilyPhase/status/1591648937672601600

📌2022.11.14追記 NovelAIのマージモデルというコメントがあるとご指摘をいただきました。情報源使用はやめましょう。リークモデルに関してはStability AIが反対の姿勢をとっており、(ここに関して厳密に法律のどこにあたるかなど理解していないですが多くの方が言うに)リークモデル利用は違法です。(というかそもそもハッキングされて盗まれてるのはダメか) ただ、それを元にマージするのはどうやら違法ではないけど、倫理的にはちょっとなぁ..という話もあります。(情報源)この辺り15日の柿沼さんのセミナーでできたら質問しよう..)

https://www.reddit.com/r/StableDiffusion/comments/yrjvc3/marathon_the_power_of_chinese_novel_ai/


LogseqをGPT-3で支援するツールにDALL-EのAPIが追加

Logseq は、ローカルのプレーンテキスト Markdown および Org モード ファイル上で機能する、プライバシー優先のオープンソース ナレッジ ベース。)


Safe Latent Diffusion: SLD

拡散プロセスにおいて不適切な画像部分を除去し抑制することができ、追加のトレーニングは必要なく、画像品質やテキストアライメントに悪影響を与えることもないことが示された。


Mobile Application Icon Diffusion

モバイルアプリのアイコンを生成するモデルが公開されました。

https://twitter.com/_akhaliq/status/1590645532640575489


DreamBooth Voxel Art Modelが公開

ボクセル表現が作れるDreamBoothモデルが公開されました。


DreamBooth PixelArt モデルが公開

ピクセルアートが作れるDreamBoothモデルが公開されました。プロンプトに「pixelsprite」「16bitscene」を使うことで利用することができます。

https://publicprompts.art/all-in-one-pixel-art-dreambooth-model/


Coda + OpenAI

Notionに似たサービス、CodaでOpenAIのAPIを使えるようになったようです


eDiffiの仕組みと機能を解説


表現


Midjourney 別のRemixモード検証

Hirokazu YokoharaさんのMidjourney V4のRemix機能の2つ画像を混ぜれる機能の検証。すごい…。どういう仕組みなんだろう、高速でTextual inversion的なことが裏側でされていてっていうことなんでしょうか。本当にここの部分識者の方にお聞きしてみたいです


画像生成AIで3Dモデルをアニメ風に置き換え実験


果物と動物の雑種

https://www.reddit.com/r/midjourney/comments/yrd4jk/fruit_and_animal_hybrids/


研究、検証


アップスケーラーはRemacriが一番いいよね〜という話

ESRGAN、SwinIR、UltraSharpなど色々あるけどRemacriが一番いいと記載があったので比較サイトで見てみたら確かに一番ノイズがなく綺麗で、再現度が高かった。


一枚の画像だけでDreamBoothモデルを作成する

Thin-Plate Spline Motion Model for Image Animationを使って画像を増やすことでなんとかしてる。
11月12日時点では、1枚で学習できるDreamArtistが公開されています。


高品質でスタイルの一貫したゲームアセットを作成するための信頼できる方法


思想・ムーブメント


ジェネレーティブAIは階乗関数曲線で成長する


「ねえ、GitHub!」プログラマーが声だけでコーディングできるようにする

似ている記事はこちら「GitHub は、開発者が自分の声でコーディングできるようにする新しいCopilot 機能をほのめかす」


Midjourney の創設者である David Holz 氏へのジェネレーティブ AI、VR、およびシリコン バレーに関するインタビュー


ジェネレーティブAIが2022 年に解決した10 の複雑な問題


インフォグラフィック: クリエイターはジェネレーティブ AIについてどう考えているか?


AIを活用した画像から3Dモデルへ


ビッグ コンテンツがジェネレーティブ AI 戦争に勝つ方法


最後に


Twitterに、毎日製作したものや、最新情報、検証を載せたりしています。
よかったら見ていただけたら嬉しいです。

画像生成AIの実験, 最新情報のまとめはこちら


過去の号はこちら

次の号はこちら


サポートいただけると喜びます。本を読むのが好きなので、いただいたものはそこに使わせていただきます