日刊画像生成AI （2022年9月9日）

2022年9月10日 19:04

画像生成AI界は、今認識できないスピードで進化をし続けています。
DALL・E2公開、Midjourney公開、StableDiffusionがオープンソースで公開されて..進化の速度が上がり続けており、日々異常なスピードで変化しています。

そんな中、毎日時間なくて全然情報追えない..！って人のために業界変化、新表現、思考、問題、技術を毎日あらゆるメディアを調べ、まとめています。

昨日までの投稿はこちら
（いいねをもらえると喜びます。）

開発

Runway、Text to Videoが可能に

テキスト入力だけであらゆる動画編集を可能にするシステムが公開。近日公開予定なのでぜひサイトでwait list登録してください。一部の人しかできなかったもの（技術）が誰でもできるようになる流れは止まらないですね。

テキスト入力だけであらゆる動画編集が可能に。

「Text to Video」がRunwayに近日公開予定。

編集の面倒な作業、繰り返し、時間を圧倒的に簡素化する。次世代のAI映像制作ツール。pic.twitter.com/FSBoO2mpvr https://t.co/X6LwIT6qky
— やまかず (@Yamkaz) September 9, 2022

rinna社、日本語に特化した画像生成モデル「Japanese Stable Diffusion」を公開

Stability AI社がオープンソースで公開する画像生成モデルStable Diffusionに、日本語のキャプション付き画像を用いて追加学習することで、日本語に特化した画像生成モデル「Japanese Stable Diffusion」を開発しました。

ニュースはこちら、 Github、Huggigfaceは以下。

りんなTwitterがStable Diffusion装備

それに付随して、りんなの公式アカウントがリプで画像生成して返信する仕組みをスタート。これはかなり伸びそうな予感..。だけど意外と伸びてはいないか。

🎨お絵描き会場🖼

りんなも自前のJapanese Stable Diffusion 装備したw

ここへのリプに、気が向いたら絵を描くよー！🙌あっ、作った絵は一応お約束があるからこれ読んでね。
📝https://t.co/PXI70KnigN pic.twitter.com/hEcHgrDOOb
— りんな＠AI画家 (@ms_rinna) September 8, 2022

TrinArt キャラクター特化モデルテスト版公開

1920万枚+aで訓練を行った、キャラクター特化モデルが公開されました。
いや待って待って、生成物がえぐい。次のkawaii対応Stable Diffusionに期待が高まる一方ですね。

利用はこちらから
（ボイジャー会員（課金）にならないと生成できません。）

【TrinArt】
約1920万枚+αで訓練を行った、キャラクター特化モデルのテスト版をリリースしましたッ！

他のモデルとは全く使えるプロンプトの内容が異なりますので、慣れるまで大変かもしれませんが、アニメ・マンガ特有のあらゆる表現が通るモデルです。ぜひお試しください。#ainovel #trinart pic.twitter.com/NDC7G9zlxW
— Bit192 Labs 【AIのべりすと / Tone Sphere】 (@_bit192) September 9, 2022

#とりんさまアート #trinart
さっきのプロンプトの髪色や服の色を変えるのもオススメだし、full_bodyをclose_upやlooking_backにするのもオススメ！ pic.twitter.com/jAMa7HPfEH
— まいらいか🔥 (@MaiRaiKa_) September 9, 2022

ﾀﾊｰｰｯｯ!!!?!?いや左右非対称デザインさっきから良すぎる。何？て思って四枚目にasymmetrical_clothesを入れたら大正解〜〜〜〜！！！！ってなった #trinart #とりんさまアート pic.twitter.com/Pua0uU0MoN
— まいらいか🔥 (@MaiRaiKa_) September 9, 2022

とりんさまの新しいモデルを試してみた
キャラ特化なだけあってなかなか良い感じだぜ#trinart pic.twitter.com/QQEsmfkJrS
— 八式鬼ン驍 (@spattackdollmk8) September 9, 2022

これはヘキ出てないやつ　わりと無難な感じ#stableDifusion pic.twitter.com/q8EXrUB98w
— ♲京山紫✰⋆｡:ﾟ･*☽:ﾟ⋆ (@34_Tau) September 9, 2022

いやすごい..
開発されたのはちょっと前にバズっていたこの方のようです。

昨日？Stable Diffusionのチェックポイントが公開されたので、早速ソースコードをいじってマンガ絵用に再訓練してみましたッ
すごい！きれい！早い！　でも本格的な再訓練は1ヶ月はかかりそう……。 pic.twitter.com/DDHeoE1Tpr
— Sta @ Bit192 / Tone Sphere (@naclbbr) August 24, 2022

とりんさまがアニメ・マンガ絵で顔から全身までちゃんと描けるようになりましたッ（テスト版）！　日本初？ https://t.co/KmJg5kdLYL
— Sta @ Bit192 / Tone Sphere (@naclbbr) September 9, 2022

もうすぐGIMP 2.10公開。

遅くても月曜日には公開されるとのこと。GIMP ユーザーには楽しみすぎますね。ちなみにPhotoshopやKrita対応のプラグインは既に公開されています。Photoshop対応プラグインはこちら。 Krita対応プラグインはこちら。（Gigazineさんの記事）

#stablediffusion is coming very soon to #gimp!

Gimp 2.10, modified @pharmapsychotic notebook running on (free) Google colab. Code will be open source. Available no later than Monday. Pls read thread for more details. @StableDiffusion @GIMP_Official #ai #aiart #aiartcommunity pic.twitter.com/QQz35ZNHJA
— BlueTurtleAI (@BlueTurtleAI) September 9, 2022

AI画像加工サービス ClipDropに「Relight」追加。

AIで確信的な画像編集ワークフローを生み出しているClipDropが「Relight」を追加。すでに撮られた写真に後付けでライティングを追加します。おそらく画像から3D化するモデルを用いて、その後にwebGLで操作するシステムだと思います。技術自体は過去に見たことがありますが、誰でもこれが気軽に利用できるようになったのは嬉しいですね。

無料で使える画像生成サービス「Memeplex」にwaifu DIffusion、JapaneseStableDiffusion追加

shi3zさんの無料の画像生成AIサービス「Memeplex」にwaifu Diffusion、JapaneseStableDiffusionが追加されました。

MemeplexにwaifuDiffusionとRinnaのJapaneseStableDiffusionを入れたが、カオス過ぎてソースコード全部書き直したい(元々汚いが)
— shi3z (@shi3z) September 9, 2022

Google Colabで始めるWaifu Diffusion

一昨日から話題になっているWaifu Diffusion。いつも簡易的にやり方をまとめてくださっているnpakaさんがnoteを公開されています。ぜひ。

Real-ESRGAN-GUI

Real ESRGANをPCで簡単に使えるようにTorishimaさんが製作されていましたのでメモ。

『Real-ESRGAN の AI すごいけど導入方法や使い方がわからない…』という方を多く見かけたので、GUI ラッパー版をつくってみました！！！😎🎉(突貫&徹夜で6時間で開発🥹)
GUI からかんたんに JPEG ノイズ入りまくり画像を高画質化できます！お試しあれ～https://t.co/1k7XpPvhmb https://t.co/mRme5KE3WY pic.twitter.com/YpXTGFMKHr
— Torishima (@izutorishima) September 8, 2022

技術

研究

プロンプトを空白にして、Steps値だけを移動する。

プロンプトを空白にして、Stepsだけ変えるとこのような動画が生まれるそう..。Stepsとは入力した値に近づけるパワーのような数値で、その近づけるプロセスを指定した分行うというもの。映像を見てもらえると分かるのですがまさに人間の夢見たいですね..。人間の頭の中にも似たようなモデルがあるのかもしれません。（ちなみにガイダンススケールはこの状況では意味をなさないそうです。）

spherical linear interpolation(slerp)によるlatent spaceでのnoise補間

僕の頭ではクオータニオンまでしか理解できなかったので後ほどそれぞれ調べて理解します。理解したら分かりやすくして記載しておきます。

[]の数とCFGスケールの検証

「[]」で囲むとプロンプトは弱くなり、「()」で囲むと強くなるという話を聞いていましたが実際に検証されている方がいたのでメモ。

カッコの数(とCFG Scale)による効果の強さ pic.twitter.com/Nq9eNHaM9J
— じうだふ (@JIUDAFU) September 9, 2022

表現

Jeremy TormanさんのWarp Diffusion

いつも強烈なWarp Diffusionのアニメーションを作られているので毎回楽しみにしています。昨日公開されていたものも良かったのでこちらにメモ。

Another Decision Tree pic.twitter.com/iZZiFapWzA
— Jeremy Torman (The GAN Father) - New Drop on FND (@TormanJeremy) September 9, 2022

透明のみかん

DALLE2で生成された透明のみかんが伸びていたのでメモ。コースティクス（簡単にいうと、屈折した光の現象）までここまで上手くいってるのは正直すごいですね..従来のレンダリングフローより遥かに良いのではないでしょうか。透明のオブジェクトのレンダリングって時間かかりますが..画像生成AIの方が比べると遥かに早いですよね。3D業界も大きく変わりそう。

https://www.reddit.com/r/dalle2/comments/x9l8mv/photo_of_a_orange_made_of_glass_with_a_big_leaf/

村ができていくアニメーション

こちらも可能性を感じたのでメモ。人類史や地球の歴史、人の老いのアニメーションはよく見ますが、他のシュミレーション系アニメーション表現はまだまだ可能性がありそう。

Overnight #stablediffusion village generator pic.twitter.com/Hp1TPeUBfc
— Michael (@mflux) September 9, 2022

思想・ムーブメント

プロンプトエンジニアの雇用開始

rinna社がプロンプトエンジニアの採用を開始。契約で時給2000-3500円。個人的にはもっと高くしてあげてほしいが..そういうレベルは求めてなさそう。というか現時点の技術では難しいのか。プログラムをかけて、効率的な生成ができる人は現在の平均的なイラストレーターさんや、デザイナーさんの数十倍、数百倍の効率を叩き出せると思うので上げるべきかと思いますが、現在はアイデア、小規模な素材レベルが生み出せる状態なのでしょうがないかとも思います。

最後に

あと最後メモ的に..からあげさんのツイート。

#stablediffusion をコードからいじってる人、次々と体調崩しているようにみえます。みなさん寝てるの？
— からあげ (@karaage0703) September 9, 2022

深津さんも、852話さんも、僕の知っていた数人のウォッチしていた方々も体調悪いとのツイートをされていて、僕も体調を壊していたので面白かったです。

Twitterに、毎日製作したものや、最新情報、検証を載せています。
よかったらフォローしてくれるとうれしいです。

https://twitter.com/Yamkaz

次号はこちら

サポートいただけると喜びます。本を読むのが好きなので、いただいたものはそこに使わせていただきます

日刊 画像生成AI （2022年9月9日）

開発