見出し画像

日刊 画像生成AI (2022年11月15-16日)

ジェネレーティブAI界は、今とても早いスピードで進化し続けています。

そんな中、毎日時間なくて全然情報追えない..!って人のためにこのブログでは主に画像生成AIを中心として、業界変化、新表現、思考、問題、技術や、ジェネレーティブAI周りのニュースなど毎日あらゆるメディアを調べ、まとめています。

"膨大な可能性"


📣大事なお知らせ
ジェネレーティブAIで事業を沢山考えた中で、どうしてもやりたい事業が見つかり、Webアプリケーション開発ができ、今後一緒に取り組める方を探しています。小さく短期的なものは考えていません。

本気で一緒に取り組めて、ジェネレーティブAIに深い興味のある方、
フロントとバックが高いレベルでかける方を探しています。
(費用は捻出します)
もし興味がありましたら、TwitterでDMをいただけますと幸いです。
何卒よろしくお願いいたします🙇


過去の投稿はこちら


開発


Runwayに動画文字起こし、字幕、ノイズ除去が搭載

Runwayに新しいAIツールが搭載。ワンクリックで動画の文字起こしと字幕を自動生成。動画からノイズの削除ができるとのこと。


Deforum Stable Diffusionが0.6vに更新

コンディショニング、ローカル動作、k-samplers搭載、2D、3Dビデオのマスキング、xformers対応、git動画生成など、沢山機能が追加されているようです。


Galacticaが公開

(画像生成AIじゃないけど、話題だったので紹介。)
MetaAIが科学用に論文や科学的コーパスで学習させた大規模言語モデルを公開。テキストを入力したら、関連する参考、数式、論文を生成してくれます。また、学術文献の要約、数学の問題解決、Wiki記事の生成、科学コードの記述、分子やタンパク質の注釈など、様々なことが可能なようです。


Paellaが公開

10ステップ以下のステップで高忠実度画像のサンプリングが可能なt2iモデル「Paella」が公開。

573Mのパラメータを持ちながら、1つの画像を500ms未満でサンプリングできる速度最適化アーキテクチャを用いた、10ステップ未満で高忠実度の画像をサンプリングできる新しいテキストから画像へのモデル。このモデルは圧縮・量子化された潜在空間上で動作し、CLIP embeddingを条件とし、従来のものより改良されたサンプリング関数を用いています。

https://github.com/dome272/Paella


MinD-Visが公開


AltDiffusion

中国語と英語の両方のテキストから画像を生成できるAltDiffusionが公開。

https://twitter.com/_akhaliq/status/1592789070828429312


Versatile Diffusion

Versatile Diffusionが発表。テキストから画像生成や、バリエーション生成、画像からテキスト生成、(この辺り理解できていないです。)セマンティックスタイルの異種混合、テキストデュアルガイド生成、他幅広いことが可能なオールインワンDiffusionモデル。


CLAP

(結構前に公開されていた..かもです?)LAIONがオーディオ版のデータセットを公開。Stability AIが予告しているAudio Diffusionに使われそう。


二重露光モデルが公開

Midjourney v4の出力を30枚学習させたモデル。トークンは「dbl_ex」を利用。Euler aかDDIMで20-30steps、CFG 4-5の設定が適切とのこと。

https://www.reddit.com/r/StableDiffusion/comments/yvfqx2/i_made_a_double_exposure_model_based_off/


Retro_SF モデルが公開


Macro Bugモデルが公開

プロンプトにキーワード「macro_bug」を利用すると使えるとのこと。

https://www.reddit.com/r/StableDiffusion/comments/ywc459/testing_macro_bug_model_a_focused_stacked_macro/


StableDiffusion Sprite SheetのDemoが公開

以前載せた、4つの異なる角度からのピクセルアートスプライトシートを生成できる「PixelArt_SpriteSheet_Generator」を試せるDemoが公開されています。よかったらぜひ

やってみたよけど、失敗したら正面だけ違うのとbackが表示されてなかった。
(うみゆきさんも一緒の結果だった)


魔咒百科词典

中国で作られた、クリックするだけで高精度なプロンプトを作成できるウェブアプリ魔咒百科词典(呪文百科事典)が公開されているようです。Gigazineさんが使われていました。(追えてなかった、、)


UnivAICharGenの使い方まとめ (Gigazine)

あらかじめ作り込まれた美しい画像を生成するプロンプトをランダムで生成しまくることができる拡張機能、UnivAICharGenの使い方をGigazineさんがまとめられています。


Notion AIが公開

(画像生成AIじゃないけど話題だったので紹介。)
NotionがついにAIツールを導入。AIでブログ投稿、議事録、メール、ブレインストーミング、文法を修正、テキストを翻訳が可能になったようです。機能豊富すぎて強い..!

shodaiさんがわかりやすくまとめられていたのでどうぞ😊


Huggigfaceが色々プチアップデート

複製(dupliication)と、裏側で動いているハードウェアが表示されるように仕様が変更。


Stability AIが今年初め4000から5408GPUに 🫢


USP.ai - ROYALTY FREE AI Image Generator

StableDiffusionが使えるChrome拡張が登場。


音楽をリアルタイムのAI生成画像に変換するツール


表現


AI生成画像と信じ難い..

Anything V3.0と思われるいくつかの投稿。もうよく見ても分からなくなってる。というかAIか人間が書いたかどうよりすごい魅力的な絵が多すぎて..リークモデル使いたいけど使えないジレンマ。あと絵師の友人に聞いたらかなりこの画風に似ている絵師さんがいて、あの人のだなぁ..って感じらしいです。


存在しないトンチキスチームパンク嘘日本の存在しないプリント写真

久しぶりのMidjourneyでの大バズ投稿。精度上がってるから高度な面白画像もっと出てきていいと思う


研究、検証


State of AI Report 2022

AI投資家の方が制作している、AIにおける最も興味深い開発を分析する今年で5年目のレポート。「私たちは、AIの現状と将来への影響について、十分な情報を得た上で会話をするきっかけを作ることを目的としています。」とのこと。ちゃんと読まなきゃ

bioshokさんやなんかさんなどが一部日本語で取り上げられてます。メモ


birdManさんのDAAM検証


ミクさんベースで全く別キャラのプロンプトで生成するi2i動画検証

AIのi2i動画をひたすら検証されている方の1人、猩々 博士さんの検証。
少しずつ浅いimg2imgを繰り返したらいけないかな..気になる。


++, ¥¥

最近生成から離れているので生成技術に関してしっかり読み込んでいなかったりするんですが、今プロンプトこんな感じになってるんですか? リプ欄を確認した所、前後のPromptと切り離してAIに描いてもらうという機能があるようです。


NovelAIの作品指定の絵柄テスト

(11/13に追えていなかったもの)


思想・ムーブメント


洞察に満ちたインタビュー@l2kと@EMostaqueの@StabilityAI


Stability AIがRedditでAMA開催


Scale AIのアレックス・ワン氏が、AIの現状、スタートアップの構築、防衛におけるAI+倫理、考えることの学習について語る。


NovelAIDiffusionを使用して既に1億2000万を超える画像が作成


生成AIはインターネットを汚染し、死に至らしめるかもしれない


Diffusionの90日

Daniel Eckler氏のいつものAI系スレッドまとめ投稿。


気になるツイート


勉強


Huggig Faceコース Transformerについて


マルチモーダルVAE


拡散モデルがどのように機能するか?

Sonyの生成モデルの講義シリーズ


最後に


Twitterに、毎日製作したものや、最新情報、検証を載せたりしています。
よかったら見ていただけたら嬉しいです。

画像生成AIの実験, 最新情報のまとめはこちら


過去の号はこちら

次の号はこちら


サポートいただけると喜びます。本を読むのが好きなので、いただいたものはそこに使わせていただきます