日刊 画像生成AI (2022年11月10日)
ジェネレーティブAI界は、今とても早いスピードで進化し続けています。
そんな中、毎日時間なくて全然情報追えない..!って人のためにこのブログでは主に画像生成AIを中心として、業界変化、新表現、思考、問題、技術や、ジェネレーティブAI周りのニュースなど毎日あらゆるメディアを調べ、まとめています。
過去の投稿はこちら
開発
Draw Thingsがリリース
スマホでStableDiffusionが動かせるアプリケーションが公開。
実は過去に別の2人の方からテスト版スマホのSD実装がリリースされているのですが、ちゃんとリリースされたのは初めて他だったからかDraw Thingsは大きく話題に取り上げられました。
デザインプラットフォーム Canva がテキストから画像への AI 機能を開始
RiverHaveWings氏の拡散ベースのアップスケーラーについて言及
アップスケーラー自体もLAION-2B データセットの高解像度サブセットでトレーニングされており、512x512→1024x1024にできるとのこと。仕組みについても詳しくこちらにまとめられています。
StableRes βがリリース
あらゆるStableDiffusionのfine-tuningモデル、ツール、Textual inverisonのptファイル、Hypernetwork、Aesthetic Gradientsをまとめたサイトが登場しました。まだリンクされていないものもあるので今後追加していくとのこと。
Anything-V3.0.ckptが発見される
中国の「元素法典」QQグループのメンバーによって作成およびリリースされました Anything-V3.0.ckptが公開されました。作成元が不明らしいのと、リークモデルを利用してる可能性もあるので使わない方がいいのかも、
📌2022.11.13 2022.11.13時点で中国のコミュニティがNAIのレジュームトレーニングを行なったモデルだというコメントを見かけました
https://twitter.com/EmilyPhase/status/1591648937672601600
📌2022.11.14追記 NovelAIのマージモデルというコメントがあるとご指摘をいただきました。(情報源)使用はやめましょう。リークモデルに関してはStability AIが反対の姿勢をとっており、(ここに関して厳密に法律のどこにあたるかなど理解していないですが多くの方が言うに)リークモデル利用は違法です。(というかそもそもハッキングされて盗まれてるのはダメか) ただ、それを元にマージするのはどうやら違法ではないけど、倫理的にはちょっとなぁ..という話もあります。(情報源)この辺り15日の柿沼さんのセミナーでできたら質問しよう..)
LogseqをGPT-3で支援するツールにDALL-EのAPIが追加
(Logseq は、ローカルのプレーンテキスト Markdown および Org モード ファイル上で機能する、プライバシー優先のオープンソース ナレッジ ベース。)
Safe Latent Diffusion: SLD
拡散プロセスにおいて不適切な画像部分を除去し抑制することができ、追加のトレーニングは必要なく、画像品質やテキストアライメントに悪影響を与えることもないことが示された。
Mobile Application Icon Diffusion
モバイルアプリのアイコンを生成するモデルが公開されました。
DreamBooth Voxel Art Modelが公開
ボクセル表現が作れるDreamBoothモデルが公開されました。
DreamBooth PixelArt モデルが公開
ピクセルアートが作れるDreamBoothモデルが公開されました。プロンプトに「pixelsprite」「16bitscene」を使うことで利用することができます。
Coda + OpenAI
Notionに似たサービス、CodaでOpenAIのAPIを使えるようになったようです
eDiffiの仕組みと機能を解説
表現
Midjourney 別のRemixモード検証
Hirokazu YokoharaさんのMidjourney V4のRemix機能の2つ画像を混ぜれる機能の検証。すごい…。どういう仕組みなんだろう、高速でTextual inversion的なことが裏側でされていてっていうことなんでしょうか。本当にここの部分識者の方にお聞きしてみたいです
画像生成AIで3Dモデルをアニメ風に置き換え実験
果物と動物の雑種
研究、検証
アップスケーラーはRemacriが一番いいよね〜という話
ESRGAN、SwinIR、UltraSharpなど色々あるけどRemacriが一番いいと記載があったので比較サイトで見てみたら確かに一番ノイズがなく綺麗で、再現度が高かった。
一枚の画像だけでDreamBoothモデルを作成する
Thin-Plate Spline Motion Model for Image Animationを使って画像を増やすことでなんとかしてる。
(11月12日時点では、1枚で学習できるDreamArtistが公開されています。)
高品質でスタイルの一貫したゲームアセットを作成するための信頼できる方法
思想・ムーブメント
ジェネレーティブAIは階乗関数曲線で成長する
「ねえ、GitHub!」プログラマーが声だけでコーディングできるようにする
似ている記事はこちら「GitHub は、開発者が自分の声でコーディングできるようにする新しいCopilot 機能をほのめかす」
Midjourney の創設者である David Holz 氏へのジェネレーティブ AI、VR、およびシリコン バレーに関するインタビュー
ジェネレーティブAIが2022 年に解決した10 の複雑な問題
インフォグラフィック: クリエイターはジェネレーティブ AIについてどう考えているか?
AIを活用した画像から3Dモデルへ
ビッグ コンテンツがジェネレーティブ AI 戦争に勝つ方法
最後に
Twitterに、毎日製作したものや、最新情報、検証を載せたりしています。
よかったら見ていただけたら嬉しいです。
画像生成AIの実験, 最新情報のまとめはこちら
過去の号はこちら
次の号はこちら
サポートいただけると喜びます。本を読むのが好きなので、いただいたものはそこに使わせていただきます