見出し画像

日刊 画像生成AI (2022年11月22日)

ジェネレーティブAI界は、今とても早いスピードで進化し続けています。

そんな中、毎日時間なくて全然情報追えない..!って人のためにこのブログでは主に画像生成AIを中心として、業界変化、新表現、思考、問題、技術や、ジェネレーティブAI周りのニュースなど毎日あらゆるメディアを調べ、まとめています。

"まるで生き物"


過去の投稿はこちら

しばらく投稿できずめっちゃ遅れてます、焦り..
主要なやつはTwitterで先出しているのでぜひ


ピックアップニュース


CICERO

MetaAIがまだやばいAIを公開。

戦略ボードゲーム「Diplomacy」で人間レベルのパフォーマンスを達成するために訓練された「Ciero」が公開。40の匿名のオンライン外交ゲームにおいて、人間のプレイヤーの平均スコアの2倍以上を記録。1997年のDeep Blueがチェスの世界チャンピオンに勝利してから、現在は言葉と戦略を使って人間と協力して勝てるようにもなってる…、これはすごいけど恐ろしさも感じるレベル。


ByteDanceから動画生成AI「MagicVideo」が公開


開発


AIを搭載したFigmaの魔法のデザインツール「Magician」

AIでテキスト入力に基づいたベクターアイコン、コピーライティング、画像を生成する。デモビデオのベクターアイコンの精度高すぎてビビります。


中国圏よりEvt_V2が発掘..?

こちら詳しく分かっていないですが、Evt_V2というモデルも発掘されたようです。


NovelAIの画像生成機能にFurry Beta V1.3が追加

一貫性、詳細、定義がさらに改善したとのこと。


CarperAIより、trlX v0.3.0が公開

Stability AIの組織の中の1つ、CarperAIよりtrlX v0.3.0が公開。ハイパーパラメータスイープをサポート、損失とモデルのリファクタリングにより拡張性が向上、PPOとILQLの最適化。以下githubより引用。

trlXは、強化学習により、ハギングフェイスに対応した言語モデル(gpt2,gpt-j,gpt-neo,gpt-neoxベース)を、与えられた報酬関数または報酬ラベル付きデータセットを介して、最大20Bパラメータまで微調整することが可能です。近接型政策最適化(PPO)と暗黙的言語Q学習(ILQL)が実装されています。


Stability AIがGlacticaを公開予定?

Meta AIから公開され話題になったAI Galacticaですが速攻でDemoが非公開に。詳細は以下。

Staibility AIのEmadさんがそれを復活させようとしてる..?

Glactica 120bnのデモを科学のためにオンラインに戻すべき?
ライセンス条件を考えるとMetaAIから反対はないと仮定して

84% の賛成票は、コメントほど興味深いものではありません。 @StabilityAIはそれを元に戻し、研究者に無料の API アクセスを提供しようとしています。もしかしてハッカソン?
Galactica の重みは、商用利用を許可しないライセンスの下でリリースされましたが、分析すると興味深い場合があります。


npakaさんの音声合成AIまとめ


「AltDiffusion」が中国語と英語以外に多言語版が存在, Alt Diffusion-m9


JukeboxWebUIのv0.4が公開


voltaMLで1行のコードを使用して、Stable-diffusionのDreamboothを最大2.5倍高速化

(コードは今綺麗にしていて、もうすぐしたら公開するとのこと)


Jak's Creepy Critter Packモデルが公開


リアルな写真Diffusionモデルが構築中

こちらを作っている組織は確認している限り他にいくつか存在しているので、今後どういう動き方をしていくかそれぞれ気になるところ。


GPT-4の噂

GPT-4は12月~2月頃に登場すると噂されています。
GPT-3のパラメータは1750億個
GPT-4のパラメータは100兆個と言われています。
GPT-3の500倍以上の性能になります。
GPT-4でどんなものが作れるようになるんだ!?


テキストからオーディオを生成する最強の方法 「http://clip.audio」がリリース


表現, 活用


"A graffiti-inspired dragon by accident"

https://www.reddit.com/r/StableDiffusion/comments/z1cyc2/a_graffitiinspired_dragon_by_accident/


ファンアートが作れるnijijourney


nijijourneyはちゃんとラーメン食べれる👍


CLIP Segでマスク生成してimg2img

テキストから画像編集。自動でマスク生成して、マスク部分をSDの生成画像で置き換え。


研究


音楽からダンス生成「EDGE」

音楽に忠実で、リアルで物理的にもっともらしく、編集可能なダンスを生成することができる「EDGE」が発表。


テキストからベクターデータを生成する「VectorFusion」が発表


UniMASK: Unified Inference in Sequential Decision Problems


SceneComposerが公開


画像内の指定した部分を切り出す「ClipCrop」が公開


「SinFusion」が公開

単一の画像や動画で学習し、様々なタスクができる拡散モデル、SinFusionが公開。Runwayに搭載されそう。バリエーション生成、動画の引き伸ばし、遡りなどができてる。

1本の動画から多様な生成
緑は入力した動画が終了しても、続いている状態。
入力動画の前の部分を生成、時間を遡る。


「AR-LDM」が公開

履歴のキャプションと生成画像に自動回帰的に条件付けされた、ストーリー可視化および継続タスクのための潜在的拡散モデル「AR-LDM」が公開。

適応により新しいキャラクターへの汎化が可能とのこと。


「DDCap」が公開

画像キャプションのタスクに対してより柔軟なデコーディングを可能にする拡散ベースのキャプションモデル、「DDCap」が公開。


Retrieval-Augmented Multimodal Language Modeling

テキストと画像の混合物を検索・生成できる初のマルチモーダルモデル。
(学習コストとモデルサイズを削減)


NeurIPS 2022で「LAION-5B」の論文がOutstanding Paper Award を受賞


分子レベルで革新的な脳型コンピューティングを実現する新研究を発表


DeepMind: 人間のフィードバックからの強化学習によるマルチモーダル インタラクティブ エージェントの改善


思想・ムーブメント


落合さんがPIVOTでDiffusionモデルや、今後のAIの動向について言及


ねぇ、モデルほしい?

Redditでこの日1番伸びていた投稿。SDモデルがとても怪しい扱いを受けている場合があることがわかります。

https://www.reddit.com/r/StableDiffusion/comments/z1lw78/hey_bro_want_some_models/


"AIリスク: 正統派と改革派の違い" by Scott Aaronson (OpenAI)


人間のアーティストが人工知能の時代をどのように生き残ることができるか


中国のコミュニティでNAIリークモデル使ったGoogle Colabノートブックを共有してたらNovelAIがDMCAテイクダウン


ジェネレーティブ アートと絵画の出会い

(Emadさん出てるよ!)


ジェネレーティブAIはスポーツの「次の大きなスポンサーシップの縦軸」になる可能性があります。


AIはすでにほとんどのクリエイティブなタスクに成功し、日進月歩で進化している


ジェネレーティブAIによる帰属問題


Copilotの集団訴訟について


勉強


2週間後から、Hugging face深層強化学習クラス v2.0🤗



最後に


Twitterに、毎日製作したものや、最新情報、検証を載せたりしています。
よかったら見ていただけたら嬉しいです。

画像生成AIの実験, 最新情報のまとめはこちら


過去の号はこちら

次の号はこちら


サポートいただけると喜びます。本を読むのが好きなので、いただいたものはそこに使わせていただきます