見出し画像

日刊 画像生成AI (2022年10月22日)

画像生成AI界は、今認識できないスピードで進化をし続けています。
DALL・E2公開、Midjourney公開、StableDiffusionがオープンソースで公開されて..進化の速度が上がり続けており、日々異常なスピードで変化しています。

"LEVEL UP"

そんな中、毎日時間なくて全然情報追えない..!って人のために業界変化、新表現、思考、問題、技術を毎日あらゆるメディアを調べ、まとめています。


過去の投稿はこちら


開発


Lexica.artがNvidia A100GPUを搭載。画像生成できるように

これは22日に行われていたようですが、AIが生成した画像とプロンプトの検索エンジン http://Lexica.art にNvidia A100 GPUでの無料の画像生成機能が搭載されました。あと課金してプロンプト隠せたり、色々追加機能を使えるとかすればもうmidjourneyのデザインに近いものになってすごい便利になりそう。強い。


Musika! Fast Infinite Waveform Music Generation

44.1 kHz のステレオ音楽を瞬時に生成してくれます。Huggingfaceで気軽に試せるのでぜひ。こちら一昨日公開されていた物ですが、昨日発見したもの。論文自体は8月18日で、コードが公開されたようです。
画像生成AIじゃないですが気になっているのでメモ。使ってみたら楽しかった。

仕組みはこちら。


AUTOMATIC1111にAesthetic gradients機能が搭載

Aesthetic gradientsとは入力画像のセットで指定されたスタイルで画像を生成する「計算量の少ない」方法らしい。簡単にいうと自分の好みを学習してくれるやつ。システムは自分の好きな画像でCLIP-conditioned diffusion modelを調整し、好きなスタイルに精製を寄せるというもの。以下のコードの実装です。

このようにDreamBoothやTextual Inverisonの結果を上昇させることもできるようです。

Pull resqest

草さんがやられていたので記載しておきます。なんとなく似るらしい。


WebUI by AUTOMATIC1111で新しくリリースされたVAEを利用する方法

RunwayMLから21日に公開された1.5v、それとStabilityAIから新しくVAEが公開されています。これをWebUIで利用する方法が記載されていたのでこちらに記載します。導入すると目や手が大幅に改善される上、img2imgで登場する色ずれなどがなくなるとのこと。すごい

  1. UIを最新バージョンにする(git pull)

  2. VAEをここからダウンロード
    (リンクが死んでいたらここから Download the VAE file here or here (direct download)

  3. モデルが配置されているところに入れる(stable-diffusion-webui\models\Stable-diffusion)

  4. VAEの名前を更新したいモデルの名前に変える(VAEをsd-v1.4.ckptにロードする場合は、VAE ファイルの名前を sd-v1.4.vae.pt に)

  5. WebUI を起動するか、UI のモデルを ♻️ 更新

  6. 完了

また、全モデルに適用したい場合は
windowsなら、以下のプロセスで可能とのこと。
1. VAEダウンロード後、名前をnewVAE.vae.ptに。
2.webui-user.bat (WebUI フォルダーのルートにある)の「COMMANDLINE_ARGS=の」行に--vae-path "path\to\your\vae\file\newVAE.vae.pt"を追加します。


表現


この日のクオリティの高かったは海外の素敵なAIアートを紹介。

"Waifu Creator"

https://www.reddit.com/r/StableDiffusion/comments/y9xpat/the_waifu_creator/


"Cyberpunk City At Night"

https://easyupload.io/1j8bkw


研究


PlatさんのNovelAI実験

PlatさんがNovelAIで様々な検証を続けられており、Notionにまとめられています。

SDやMidjourneyだと海外の方がこういうリファレンス一気にできるの早かったけど、NovelAIは圧倒的にアジア圏が早いですね


深津さんのキャラ資料生成メソッド

完璧に出ている。3Dのバーチャルキャラのようなモデルを角度を変えて複数素材を作り、img2imgして生成してるんでしょうか。ちょっと不明なのでわかる方教えていただきたいです


手がちゃんと描けるプロンプト

このプロンプトはほとんどの確率で手が綺麗に描けるらしいとのことでやってみたら描けました。ピースサインは学習量が多いのかな

{fox girl}, white hoodie, {white hair}, blue eyes, small breasts, white background,x3, star shaped pupils, {peace sign}, blush

https://www.reddit.com/r/NovelAi/comments/y9yob7/i_heard_novelai_is_supposed_to_be_bad_at_hands/


SD1.5をポートレート写真で微調整

(こちらも21日)いくつかのリアルなポートレート写真を使用して新しい SD1.5 モデルを微調整している事例。GFPGANやCodeFormerを使わずこのクオリティなのすごい。質感もかなりいい。


思想・ムーブメント


レコード レーベルは、AI 音楽ジェネレーターが音楽業界を脅かしていると述べています。


最近の画像生成AIの急激な進化は、シンギュラリティ実現の可能性を示しているのか


AI画像コンテスト開催


お絵描きAIの世界トレンド変化


学習に使われたAIアーティストのコメント

データセットに作品が含まれていた多くのプロのアーティストの方々のインタビュー、それに対するSpawningのようなデータセットに含むことを反対するような活動があること。それに対するStability側のコメントが書かれています。どうやら意向によってstablediffusionの学習から申請したアーティストは外されるかもしれません。なのでAIで効率化したくて、もっと創造的な絵を作りたいって人だけが好きなアーティストをデータ集めてきて学習して概念結合して新しい絵を作る。みたいな感じになりそう。全員に汎用的に現状生きてる作家さんの絵と類似のものがいっぱい出せる技術が広がるということは止まるのかも..しれません。

私は先月、アートとデータセットの世界に飛び込み、stable diffusionの背後にあるデータセットに作品が含まれているアーティストと話をしました。それは魅力的で、複雑で、たくさんのことを学びました(短いスレッド)。

データセット トレーニングのためにインターネット画像をスクレイピングすることは新しいことではなく、伝統的に「フェアユース」に該当します。しかし、アーティストの感情が多様で複雑であることは理にかなっています (怒り、懸念、フラストレーションを含みます)。

この記事は本当に良い記事です。ある言葉が印象に残っています。
"もし、彼らの作品に学習させたAIシステムで作られた画像が販売された場合、アーティストは補償を受ける必要があると彼女は言いました。たとえそれが「小銭の端数」であってもです。ミュージシャンなら誰でも好きなサイト、Spotifyを思い起こさせる

たとえモデルが400mで学習され、すべての画像に著作権があり、データセットに画像を持つすべての人が100枚の画像を持っているという非常に寛大な仮定をしたとしても、です。

もし私が1万ドル儲けて、それを全部アーティストに返しても、アーティストは0.0025ドルしか得られないのです。


AI が生成するエンターテインメントの未来

ライブストリームでAIがインタラクティブな AI 生成のアニメ ショーをやられていたらしいです。ずっとAIが音楽生成し続けているYouTubeライブとかあったりするのでこの方面もちょっと気になってます。
(今は放送終わってます。)


この日の気になるツイート


勉強


Paperspace Gradient入門、GoogleColab比較

クニえもんさんが紹介されていました。Colabの代替案、Paperspaceについてまとめられています。僕も最近paperspaceでwebuiを使って活動してみていますが、なんとなくしか情報掴めていなかったので大変助かります


最後に


Twitterに、毎日製作したものや、最新情報、検証を載せたりしています。
よかったら見ていただけたら嬉しいです。

画像生成AIの実験, 最新情報のまとめはこちら


過去の号はこちら

次の号はこちら


サポートいただけると喜びます。本を読むのが好きなので、いただいたものはそこに使わせていただきます