見出し画像

日刊 画像生成AI (2022年10月20日)

画像生成AI界は、今認識できないスピードで進化をし続けています。
DALL・E2公開、Midjourney公開、StableDiffusionがオープンソースで公開されて..進化の速度が上がり続けており、日々異常なスピードで変化しています。

"開かれた可能性"

そんな中、毎日時間なくて全然情報追えない..!って人のために業界変化、新表現、思考、問題、技術を毎日あらゆるメディアを調べ、まとめています。


過去の投稿はこちら


開発


Stable Diffusion 1.5vが公開。

AI動画編集ツールを公開しているRunwayMLから、20日の夜Stable Diffusion1.5vが公開。9月25日公開と言われていたり、公開されないんじゃないかと言われたりと言われていた1.5が突如、しかもComvisでなくrunwayの方からアップロードされた。この真相については21日の方に記載します。


NovelAIDiffusionを支える魔法

NovelAIが画像生成AIの仕組みについてのブログを公開。画像データをコラージュしているだけという指摘、Danbooruデータを利用している問題など様々なことがあったのでこのようなブログを公開されたものだと思われます。

詳細なデータの部分まで語られています。モデルはオリジナルの Stable Diffusion モデルに基づいていて、LAION データセット (~150TB) からの約 20億の画像でトレーニング。使用したデータセットは、非常に詳細なテキストタグ データを含む約 530 万枚の画像 (約6TB) で構成


ここから少し画像生成AIではなくなります。
画像生成以外の話題になったAIもいつも一緒に紹介してます。

RLHFで学習させた大規模言語モデルがついにオープンに..

次の言葉を予測するタイプのLLM(大規模言語モデル)は使い勝手が悪いし、事実と違うことを言うし不快な出力を出すこともあるようです。

その出力に対する人間からのフィードバックを集め、人間のフィードバックをより予測しやすい方向にモデルのパラメータを調整することで、事後的に調整することができるらしい。

それにより、優れた検索、文章作成支援、コード生成、さらにはタスクを自動化する汎用的なアシスタントが可能になるとのことです。通常のLLM(大規模言語モデル)に存在する誤報の拡散や社会的偏見の強化というリスクを大幅に軽減もできるらしい。

これはすでにOpenAI、DeepMindの方にはあるらしいが…、APIとして提供されているだけ。CasperAIにより初めてオープンになる。

ちなみにCarperAIは、Stable Diffusionが画像生成を民主化したように、大規模言語モデルの「LLMs」「命令チューニング」を民主化することを目的らしいので、この実行がメインの組織。

Stability AIの中のEleutherAI研究室の中のCarperAI研修室やそれと一緒に活動予定の様々な組織(ScaleAI, Humanloop, Huggingfaceなど)と連携してそれを作られていくそうです。公開が待ち遠しい。どんなことが起きるんだろ

これらの組織のコラボレーション


MetaAIがUniversal Speech Translator(UST)を発表。

世界の誰とでも日本語のまま話せる日が来るかもしれない。
しかも家の中から。

Meta AIが、主に口語で話される言語を対象とした初のAIを搭載した音声から音声への翻訳システムUniversal Speech Translator(UST)を開発。今は福建語⇆英語のシステムが開発されている状態。

だがGaget360に記載されたMetaのコメントは次のように書かれている。

"これは、言語間の同時翻訳が可能な未来への一歩です。"
"我々が福建語で開拓した技術は、他の多くの文字を使わない口頭言語にも拡張でき、いずれはリアルタイムで機能するようになるでしょう。"

すごい..実現したらもう外国語を学ぶというのも違う時代になりそうですね、今の字を綺麗に書けるスキルみたいな扱いになりそう。パソコンで打てばいいやんっていう。

ちなみにここで試せます。


Text to Music (MubertAI)のColabノートブックが公開

MubertというAIでタグ指定したら音楽を生成してくれるサービスがあったんですがそのAPIを利用してテキストを入れたらそれをタグに変換することでtext to musicを実現しているcolabノートブックが公開されて話題になりました。1度タグに変換したり、あらゆる曲を学習しているわけではなく、アーティストさんたちに作ってもらったやつをもとに学習しているらしいので、歌声とかは難しいみたいです。でもゲームのBGMとかもうこれでいいのかも。


Imagicが使えるGoogleColabノートブックの日本語版が公開。

リーサ・リサージュ・ヤスミンさんが先日話題になったAIですごい画像編集ができてしまうImagicが使える日本語のcolabノートブックを公開されました。使いやすそう。


CLIP InterrogatorのHuggingface Demoが公開。

プロンプトが逆算できるCLIP InterrogatorがHuggingfaceでDemoが公開されて使っている方がこの日多かった印象です。colabがなくても気軽に試せるのでぜひ。


StableDiffusion-infinityのメジャーアップデート + RunwayのSD inpaintingモデルについて

DALLE2と同じOutpainting用UIがSDで使えるStableDiffusion-infintyが以前公開されていましたが、先日公開されたrunwayのSD inpainting専用モデルを使うとかなりクオリティが上がるらしい。 これはDALL-E2を超えてそう。DALLE2のoutpaintingはどうしてもなんか変な筆っぽい質感が入ってしまうけどこれはそれがないように見えます。

https://www.reddit.com/r/StableDiffusion/comments/y8m2ve/there_is_a_new_model_that_brings_sd/

runwayのinpainting専用モデルはこちらに。

一緒に話しますが、runwayのinpaintingモデルめっちゃすごいっぽい、imagic的なクオリティがありそう。以下の画像はinpaintingモデルが使われたもの。(clipseg(テキストからマスクを生成する)で髪を指定してSDinpaintingモデルを利用しているようです。)

https://www.reddit.com/r/StableDiffusion/comments/y89apm/who_needs_prompt2prompt_anyway_sd_15_inpainting/

試したい方はここで簡単に試せるようです。どうぞ。


Lama CleanerがrunwayのSD inpaintingモデルを搭載

SOTA AI モデルを利用した無料のオープンソース修復ツール、Lama Cleaner も先日公開されたrunwayのSD inpaintingモデルを搭載したとのこと。サンプル動画のこの例ちょっと一部の人にとっては恐ろしいですね


NovelAI用タグジェネレーターにランダム機能が追加


Public Promptsに Pixel Landscape V1が追加

有料でprompt販売を行うpromptbase.comを許せない方が多いようで、その中の1人の方がpublic promptsというサイトを立ち上げ、無料でバンバンモデルやプロンプトを公開し続けています。基本全部この辺りの文化は高速で無料に向かっていますね、


OnnxDiffusersUI

WindowsのAMD GPU で SD を実行するための独自の UIが開発、公開されたようです。この環境の方にとってはめっちゃ嬉しい..? ただそんな早く動作するわけではないとのこと。


ポートレート画像用にMidjourneyのポートレート画像で学習したDreamBoothモデルが公開

https://www.reddit.com/r/StableDiffusion/comments/y8cexn/i_trained_sd_on_midjourneys_photo_version_testp/

これ個人的にやろうとしていたので気になる。ちょっと後で触ってみます。
以下のページでモデルはダウンロードできます。

NovelAI流出モデルの現状

もう投稿は消えてしまっていましたがNovelAI流出モデルがずっと一部の人たちには使われている状態のようです。一応現状共有です。
違法なのでやめましょう。


表現


NovelAI、WaifuDiffusionの表現研究続々

sabakichiさんのシンプルなイラスト生成めちゃめちゃすごい、この質感もできるんですね..すごい。かりみやさんの大量猫プロンプトもすごい。
発見すぎる。イラストでの出力系はちょっと多すぎるので全ては拾えていないと思います、いいの作られてたらすみません。


動画への一貫したimg2imgの適用

一貫したimg2imgでクオリティの高いものがどんどんアップされてきていますがそれのHow to動画がアップされていたので紹介。以下はそのhowto動画をもとに作られたもの。textual inversionで顔を学習して一貫性をこれは保っているみたい。

以下は元のhow to 動画。

通常のimg2imgより良いimg2img結果が得られる(元の画像を維持した結果になるらしい)img2img alternative testというscriptでクオリティを高くしているようです。(ただまだ、画像をぶっ壊すことが多いらしいとの記載も別で見ました。)(ちょっと理解しきれておらずです。やりたい方は動画へ)


あぶぶさんのホラー画像生成

面白いし、フォトバッシュワークフローがめっちゃ上手すぎてすごい


"pretty ladies doing magic in the woods"

https://www.reddit.com/r/StableDiffusion/comments/y8lxdq/help_im_addicted_to_pretty_ladies_doing_magic_in/


Stable Diffusionの欲しい画像を作るワークフロー

久しぶりにこれ系のワークフロー動画がアップされていました。一発生成じゃなく、ワークフローを使っている人はもうAI絵師と名乗っても何も言われなさそう。プロンプトだけで一発生成だと絵師っていうか、ディレクター?
AIディレクターみたいな名前が良さそう。


DALL-E2で作られた奇妙なGoogleEarth写真

GoogleEarth写真生成するの楽しそう。
この日この投稿が人気で面白かったので紹介。

https://www.reddit.com/r/dalle2/comments/y88ait/weirdest_photo_caught_on_google_maps/
https://www.reddit.com/r/dalle2/comments/y8l9co/area_51s_true_nature_as_caught_on_google_earth/


研究


Imagic、Text-to-Music検証


5120x1440画像の書き出しワークフロー

https://www.reddit.com/r/StableDiffusion/comments/y8ccii/super_ultrawide_desktop_backgrounds_5120x1440/

SDでまず12stepくらいの低さで2048x576でいっぱい書き出して、いいやつのシード値を固定して、60stepで生成。それをアップスケールするとのこと。(書いたけど普通だった。)


Waifu Diffusionの追加学習(DreamBoothじゃない)をColabT4で行う


思想・ムーブメント


AI生成作品の取り扱いに関するサービスの方針について

従来の投稿作品とAI生成作品のすみわけが可能になるように以下の機能が追加された。海外のイラストコンペやストックサイトと同様、すみわけという選択を取られました。「創作過程におけるAI技術の利用がより普及していくと捉えており、AIが関与した成果物の完全な排斥は考えておりません。」とのこと。

■機能改修
・投稿編集時にAI生成作品と設定できる機能の提供
・AI生成作品を検索時などにフィルタリングする機能の提供
・従来の作品とは分けた、AI生成作品のみのランキングの提供


AIの反逆によって異常ラーメン食べ女・AI樋口円香が生まれ、人間がそのファンアートを描くというカオスな流れが誕生しつつある


StabilityAIの資金調達に伴うアナウンスプレゼン翻訳


この日の気になるツイート


勉強


fast.aiの「ディープラーニングの基礎からStableDiffusionへ」の講義の最初の5.5時間分が無料で公開。

ちょっと自分のまだ知識量ではむずいかなと思って入っていなかったのですが最初の5.5時間分が無料で公開になったようです。見てみる。


最後に


Twitterに、毎日製作したものや、最新情報、検証を載せたりしています。
よかったら見ていただけたら嬉しいです。

画像生成AIの実験, 最新情報のまとめはこちら


過去の号はこちら

次の号はこちら


サポートいただけると喜びます。本を読むのが好きなので、いただいたものはそこに使わせていただきます