日刊 画像生成AI (2022年11月22日)
ジェネレーティブAI界は、今とても早いスピードで進化し続けています。
そんな中、毎日時間なくて全然情報追えない..!って人のためにこのブログでは主に画像生成AIを中心として、業界変化、新表現、思考、問題、技術や、ジェネレーティブAI周りのニュースなど毎日あらゆるメディアを調べ、まとめています。
過去の投稿はこちら
ピックアップニュース
CICERO
MetaAIがまだやばいAIを公開。
戦略ボードゲーム「Diplomacy」で人間レベルのパフォーマンスを達成するために訓練された「Ciero」が公開。40の匿名のオンライン外交ゲームにおいて、人間のプレイヤーの平均スコアの2倍以上を記録。1997年のDeep Blueがチェスの世界チャンピオンに勝利してから、現在は言葉と戦略を使って人間と協力して勝てるようにもなってる…、これはすごいけど恐ろしさも感じるレベル。
ByteDanceから動画生成AI「MagicVideo」が公開
開発
AIを搭載したFigmaの魔法のデザインツール「Magician」
AIでテキスト入力に基づいたベクターアイコン、コピーライティング、画像を生成する。デモビデオのベクターアイコンの精度高すぎてビビります。
中国圏よりEvt_V2が発掘..?
こちら詳しく分かっていないですが、Evt_V2というモデルも発掘されたようです。
NovelAIの画像生成機能にFurry Beta V1.3が追加
一貫性、詳細、定義がさらに改善したとのこと。
CarperAIより、trlX v0.3.0が公開
Stability AIの組織の中の1つ、CarperAIよりtrlX v0.3.0が公開。ハイパーパラメータスイープをサポート、損失とモデルのリファクタリングにより拡張性が向上、PPOとILQLの最適化。以下githubより引用。
Stability AIがGlacticaを公開予定?
Meta AIから公開され話題になったAI Galacticaですが速攻でDemoが非公開に。詳細は以下。
Staibility AIのEmadさんがそれを復活させようとしてる..?
npakaさんの音声合成AIまとめ
「AltDiffusion」が中国語と英語以外に多言語版が存在, Alt Diffusion-m9
JukeboxWebUIのv0.4が公開
voltaMLで1行のコードを使用して、Stable-diffusionのDreamboothを最大2.5倍高速化
(コードは今綺麗にしていて、もうすぐしたら公開するとのこと)
Jak's Creepy Critter Packモデルが公開
リアルな写真Diffusionモデルが構築中
こちらを作っている組織は確認している限り他にいくつか存在しているので、今後どういう動き方をしていくかそれぞれ気になるところ。
GPT-4の噂
テキストからオーディオを生成する最強の方法 「http://clip.audio」がリリース
表現, 活用
"A graffiti-inspired dragon by accident"
ファンアートが作れるnijijourney
nijijourneyはちゃんとラーメン食べれる👍
CLIP Segでマスク生成してimg2img
テキストから画像編集。自動でマスク生成して、マスク部分をSDの生成画像で置き換え。
研究
音楽からダンス生成「EDGE」
音楽に忠実で、リアルで物理的にもっともらしく、編集可能なダンスを生成することができる「EDGE」が発表。
テキストからベクターデータを生成する「VectorFusion」が発表
UniMASK: Unified Inference in Sequential Decision Problems
SceneComposerが公開
画像内の指定した部分を切り出す「ClipCrop」が公開
「SinFusion」が公開
単一の画像や動画で学習し、様々なタスクができる拡散モデル、SinFusionが公開。Runwayに搭載されそう。バリエーション生成、動画の引き伸ばし、遡りなどができてる。
「AR-LDM」が公開
履歴のキャプションと生成画像に自動回帰的に条件付けされた、ストーリー可視化および継続タスクのための潜在的拡散モデル「AR-LDM」が公開。
適応により新しいキャラクターへの汎化が可能とのこと。
「DDCap」が公開
画像キャプションのタスクに対してより柔軟なデコーディングを可能にする拡散ベースのキャプションモデル、「DDCap」が公開。
Retrieval-Augmented Multimodal Language Modeling
テキストと画像の混合物を検索・生成できる初のマルチモーダルモデル。
(学習コストとモデルサイズを削減)
NeurIPS 2022で「LAION-5B」の論文がOutstanding Paper Award を受賞
分子レベルで革新的な脳型コンピューティングを実現する新研究を発表
DeepMind: 人間のフィードバックからの強化学習によるマルチモーダル インタラクティブ エージェントの改善
思想・ムーブメント
落合さんがPIVOTでDiffusionモデルや、今後のAIの動向について言及
ねぇ、モデルほしい?
Redditでこの日1番伸びていた投稿。SDモデルがとても怪しい扱いを受けている場合があることがわかります。
"AIリスク: 正統派と改革派の違い" by Scott Aaronson (OpenAI)
人間のアーティストが人工知能の時代をどのように生き残ることができるか
中国のコミュニティでNAIリークモデル使ったGoogle Colabノートブックを共有してたらNovelAIがDMCAテイクダウン
ジェネレーティブ アートと絵画の出会い
(Emadさん出てるよ!)
ジェネレーティブAIはスポーツの「次の大きなスポンサーシップの縦軸」になる可能性があります。
AIはすでにほとんどのクリエイティブなタスクに成功し、日進月歩で進化している
ジェネレーティブAIによる帰属問題
Copilotの集団訴訟について
勉強
2週間後から、Hugging face深層強化学習クラス v2.0🤗
最後に
Twitterに、毎日製作したものや、最新情報、検証を載せたりしています。
よかったら見ていただけたら嬉しいです。
画像生成AIの実験, 最新情報のまとめはこちら
過去の号はこちら
次の号はこちら
サポートいただけると喜びます。本を読むのが好きなので、いただいたものはそこに使わせていただきます