見出し画像

日刊 画像生成AI (2022年9月15日)

画像生成AI界は、今認識できないスピードで進化をし続けています。
DALL・E2公開、Midjourney公開、StableDiffusionがオープンソースで公開されて..進化の速度が上がり続けており、日々異常なスピードで変化しています。

"日々力を蓄え続けるAI"

そんな中、毎日時間なくて全然情報追えない..!って人のために業界変化、新表現、思考、問題、技術を毎日あらゆるメディアを調べ、まとめています。


昨日までの投稿はこちら


開発


AdeptがACT-1(アクショントランスフォーマー)を発表

画像生成AIに注目している方々は関係ないとは言い切れない、重要すぎるトピックなので最初に紹介。ACT-1は、一連のソフトウェアツールを使えるように教えられた最初の大型モデルです。例えば、「4人で住める家をヒューストンで探して」と話せば、その通り調べて、探してくれます。SiriとかGoogle Home、Alexaがこれまでできなかったことが全部できちゃいそう。

以下のツイートの動画を見てもらえるとヤバさが分かります。個人的には、数日前のRunwayMLのテキストでの動画編集の衝撃以上….。いややばい。やばい。雑用全部本当に楽になりすぎるのでは。楽というかなくなるのかな。

この公式サイトに載っている動画を全部見てください。やばいです。

トピックとして、個人的にやばかった部分を翻訳+抜粋。

数年後、私たちは次のように考えています。
コンピュータとのやり取りのほとんどは、GUI ではなく自然言語を使用して行われます。私たちはコンピュータに何をすべきかを伝え、コンピュータはそれを実行します。今日のユーザー インターフェイスは、スマートフォン ユーザーにとって固定電話と同じくらい時代遅れに見えるでしょう。

「Salesforce、Unity、または Figma で X を実行する方法」についてフォーラムを検索することは決してありません。
モデルがその作業を行うため、当面の高次のタスクに集中することができます。

https://www.adept.ai/act

そういう時代では何が重要なのか。この事例でいよいよ考え始める人が今まで以上に、圧倒的に増えそう。

ちなみにAdeptとはAIのリーダーからなる9人のチーム。Transformerの発明者、Ashish VaswaniさんとNiki Parmarさん。GPU コンピューティングのパイオニア、DeepMind共同主導者のErich Elsenさん。Google のコード生成モデルの構築者、Augustus OdenaさんとMax Nyeさん。Google の製品用音声認識モデルを構築したAnmol Gulatiさん。Google のデータおよび協調型 AI システムに関するグループのエキスパートFred Bertschさん。OpenAIのエンジニアリング担当副社長、GPT-2、GPT-3、CLIP、DALL-Eなどを送り出したDavid Luanさんなど.. いや経歴やばいし、写真かっこいい笑

https://www.adept.ai/post/introducing-adept

今後の展開に要注目です。


Stable DiffusionのPhotoshopプラグインがバージョンアップ。img2imgが利用可能に。

Christian Cantrellさんが以前公開したDreamStudio APIを利用したプラグイン。レイヤーをそのまま元画像として設定して、img2imgできるそう。かなり画像生成AIを使ったいいワークフローを誰もができるようになりそう。

今後の展開としてローカルでも動くようにするとのこと。期待ですね。


neural.love Free AI art generator公開。

EUの小さなスタートアップのサービス neural.loveにFree AI art generator betaが追加。Redditで注目が集まっていたのでシェア。かなり良さそうだが、コメント欄を見る限り、DreamStudioより遅い上クオリティが低い..?とのことでした。

neural.loveの他Stable Diffusion実装サービスとの違い
・基本画像生成は無料
・組み込みのプロンプト ジェネレーター(何も工夫しなくてもpromptを補完して、質もいいものを作ってくれる)
・カテゴリ変更
・interrogator組み込み(画像からpromptを生成)
・特注img2img(顔のクオリティが高いそう)


Phase.artにStableDiffsuion追加

Phase.artは、prompt支援ツールだったのですがそこにStable Diffusionの生成機能まで追加されました。どうなんだろう、便利なのかな

https://www.reddit.com/r/StableDiffusion/comments/xeghiz/added_stable_diffusion_to_my_prompt_generator/


stablediffusion-infinity (outpainting canvas)

DALL・E2のOutpainting機能っぽく、Stable DiffusionでもOutpaintingできるように実装された方がいるようです。


Have I Been Trained?

StableDiffusionには58億枚超えの画像のデータセット LAION 5Bがつかわているのですがその画像を検索できるサイトができたようです。ClipFrontとは違って、画像を検索できるのがポイントですね

GIGAZINEさんがもう紹介されていたので、詳しくはこちらにどうぞ


Optimized Stable Diffusionがv1.0.4に更新。さらに超高速に。

Optimized Stable Diffusionは推論速度を犠牲にすることで元のリポジトリよりも少ないVRAMを使用するように最適化されたものです。そこにサンプラー、neonsecret のメモリ最適化、ふわふわしたボタン(おそらくUIデザインのこと..?)が追加されたそうです。


Stable Diffusion WebUI (Docker)

Stable Diffusionをかなり高度に使いやすく、機能も豊富なWebUIをDockerで利用できるようにしたものが公開されたようです。Macでは動作しないとのこと。Nvidia カードがインストールされているもので実行する必要があります。


polycam、 Room Modeを発表

これも画像生成AIにガッツリ関係してる訳ではないですが、Stable Diffusionで作る作品に利用できるかもと思い、一応載せておきます。空間を即座にキャプチャすることができるサービスです。ドア、壁、窓、家具を備えた間取り図をリアルタイムで生成してくれるとのこと。


表現


Midjourneyで制作した映像作品で、国際的な賞を多数受賞

こちらの映像、幾つも国際的な賞を受賞してるらしい。海外は早いですね。

ちなみに技術としては、D-IDというのを利用されている様子。声を入力したり、テキストを入力すると、入れた画像の中の人物が喋ってくれるというもの。検証してる日本ユーザーの人の投稿見る限り、日本語はあまりなのかなという感触。

自分も使ってみてました。15creditあります。ひろゆきでやろうと思ったけどやめた


Paul Trilloさん新作が話題

以前この映像で話題になった監督のPaul Trilloさん。DALL・EのOutpaintingを使って新作を作られていました。


Stable Diffusionのアニメーション作品セレクト

昨日はこちらが良かった。と思ったら14日のでした。拾えてなかった。
引いていく映像はあまりないのでよく見えるんですよね。
もうすぐこういうMVが増えそうですね。


研究


PaLI:Pathways Language and Image model

どうやら見る限り、画像入れて英語で説明してって話したら説明してくれるAIって感じですね。Prompt逆引きのものはいっぱい出てはいますが、最高性能というのは気になりますね。


Steps と Guidance Scale 値の比較

https://www.reddit.com/r/StableDiffusion/comments/xewvas/i_made_a_comparison_table_between_steps_and/


思想・ムーブメント


852話さんインタビュー公開。

可愛い女の子のイラストや、Midjourney検証で話題になった852話さんがインタビューしてもらってました。


最後に


毎日日刊画像生成AIを続けてきましたが、そろそろこれをリリースします。

Twitterで待っててください。

割とサービスや生成された面白活用みたいなものは一旦落ち着いてきているので..(いっぱい投稿はされてるけど、これといって過去に紹介したものと違いはないから紹介してないです)こういうまとめを作る作業に移るのでもいいかもと思ってます。と思ってたら次の日結構出たりするので分からないですが..。


前回の号はこちら

次の号はこちら

サポートいただけると喜びます。本を読むのが好きなので、いただいたものはそこに使わせていただきます