見出し画像

日刊 画像生成AI (2022年9月9日)

画像生成AI界は、今認識できないスピードで進化をし続けています。
DALL・E2公開、Midjourney公開、StableDiffusionがオープンソースで公開されて..進化の速度が上がり続けており、日々異常なスピードで変化しています。

"あらゆる技術、障壁は開かれる"

そんな中、毎日時間なくて全然情報追えない..!って人のために業界変化、新表現、思考、問題、技術を毎日あらゆるメディアを調べ、まとめています。


昨日までの投稿はこちら
(いいねをもらえると喜びます。)


開発


Runway、Text to Videoが可能に

テキスト入力だけであらゆる動画編集を可能にするシステムが公開。近日公開予定なのでぜひサイトでwait list登録してください。一部の人しかできなかったもの(技術)が誰でもできるようになる流れは止まらないですね。


rinna社、日本語に特化した画像生成モデル「Japanese Stable Diffusion」を公開

Stability AI社がオープンソースで公開する画像生成モデルStable Diffusionに、日本語のキャプション付き画像を用いて追加学習することで、日本語に特化した画像生成モデル「Japanese Stable Diffusion」を開発しました。

ニュースはこちら、 Github、Huggigfaceは以下。


りんなTwitterがStable Diffusion装備

それに付随して、りんなの公式アカウントがリプで画像生成して返信する仕組みをスタート。これはかなり伸びそうな予感..。だけど意外と伸びてはいないか。


TrinArt キャラクター特化モデル テスト版公開

1920万枚+aで訓練を行った、キャラクター特化モデルが公開されました。
いや待って待って、生成物がえぐい。次のkawaii対応Stable Diffusionに期待が高まる一方ですね。

利用はこちらから
(ボイジャー会員(課金)にならないと生成できません。)

いやすごい..
開発されたのはちょっと前にバズっていたこの方のようです。


もうすぐGIMP 2.10公開。

遅くても月曜日には公開されるとのこと。GIMP ユーザーには楽しみすぎますね。ちなみにPhotoshopやKrita対応のプラグインは既に公開されています。Photoshop対応プラグインはこちら。 Krita対応プラグインはこちら。(Gigazineさんの記事)


AI画像加工サービス ClipDropに「Relight」追加。

AIで確信的な画像編集ワークフローを生み出しているClipDropが「Relight」を追加。すでに撮られた写真に後付けでライティングを追加します。おそらく画像から3D化するモデルを用いて、その後にwebGLで操作するシステムだと思います。技術自体は過去に見たことがありますが、誰でもこれが気軽に利用できるようになったのは嬉しいですね。


無料で使える画像生成サービス「Memeplex」にwaifu DIffusion、JapaneseStableDiffusion追加

shi3zさんの無料の画像生成AIサービス「Memeplex」にwaifu Diffusion、JapaneseStableDiffusionが追加されました。


Google Colabで始めるWaifu Diffusion

一昨日から話題になっているWaifu Diffusion。いつも簡易的にやり方をまとめてくださっているnpakaさんがnoteを公開されています。ぜひ。


Real-ESRGAN-GUI

Real ESRGANをPCで簡単に使えるようにTorishimaさんが製作されていましたのでメモ。

高解像度前
高解像度後

技術


最新画像生成AI 時系列マップ

最近の動向を把握するにはこちらよさそうだったのでメモ。
本当は、PartiとかMake-a-scene、Nuwa infinityとか日本ではあまり聞かない有象無象が色々ありますが、一般的に重要なのを把握するなら割とこれでよさそう。

https://twitter.com/kuronagirai/status/1567955183136821249


研究


プロンプトを空白にして、Steps値だけを移動する。

プロンプトを空白にして、Stepsだけ変えるとこのような動画が生まれるそう..。Stepsとは入力した値に近づけるパワーのような数値で、その近づけるプロセスを指定した分行うというもの。映像を見てもらえると分かるのですがまさに人間の夢見たいですね..。人間の頭の中にも似たようなモデルがあるのかもしれません。(ちなみにガイダンススケールはこの状況では意味をなさないそうです。)


spherical linear interpolation(slerp)によるlatent spaceでのnoise補間

僕の頭ではクオータニオンまでしか理解できなかったので後ほどそれぞれ調べて理解します。理解したら分かりやすくして記載しておきます。


[]の数とCFGスケールの検証

「[]」で囲むとプロンプトは弱くなり、「()」で囲むと強くなるという話を聞いていましたが実際に検証されている方がいたのでメモ。


表現


Jeremy TormanさんのWarp Diffusion

いつも強烈なWarp Diffusionのアニメーションを作られているので毎回楽しみにしています。昨日公開されていたものも良かったのでこちらにメモ。


透明のみかん

DALLE2で生成された透明のみかんが伸びていたのでメモ。コースティクス(簡単にいうと、屈折した光の現象)までここまで上手くいってるのは正直すごいですね..従来のレンダリングフローより遥かに良いのではないでしょうか。透明のオブジェクトのレンダリングって時間かかりますが..画像生成AIの方が比べると遥かに早いですよね。3D業界も大きく変わりそう。

https://www.reddit.com/r/dalle2/comments/x9l8mv/photo_of_a_orange_made_of_glass_with_a_big_leaf/


村ができていくアニメーション

こちらも可能性を感じたのでメモ。人類史や地球の歴史、人の老いのアニメーションはよく見ますが、他のシュミレーション系アニメーション表現はまだまだ可能性がありそう。


思想・ムーブメント


プロンプトエンジニアの雇用開始

rinna社がプロンプトエンジニアの採用を開始。契約で時給2000-3500円。個人的にはもっと高くしてあげてほしいが..そういうレベルは求めてなさそう。というか現時点の技術では難しいのか。プログラムをかけて、効率的な生成ができる人は現在の平均的なイラストレーターさんや、デザイナーさんの数十倍、数百倍の効率を叩き出せると思うので上げるべきかと思いますが、現在はアイデア、小規模な素材レベルが生み出せる状態なのでしょうがないかとも思います。


最後に


あと最後メモ的に..からあげさんのツイート。

深津さんも、852話さんも、僕の知っていた数人のウォッチしていた方々も体調悪いとのツイートをされていて、僕も体調を壊していたので面白かったです。

Twitterに、毎日製作したものや、最新情報、検証を載せています。
よかったらフォローしてくれるとうれしいです。

https://twitter.com/Yamkaz  




次号はこちら

サポートいただけると喜びます。本を読むのが好きなので、いただいたものはそこに使わせていただきます