日刊画像生成AI (2022年11月22日)

やまかず

2022年12月4日 23:14

ジェネレーティブAI界は、今とても早いスピードで進化し続けています。

そんな中、毎日時間なくて全然情報追えない..！って人のためにこのブログでは主に画像生成AIを中心として、業界変化、新表現、思考、問題、技術や、ジェネレーティブAI周りのニュースなど毎日あらゆるメディアを調べ、まとめています。

過去の投稿はこちら

しばらく投稿できずめっちゃ遅れてます、焦り..
主要なやつはTwitterで先出しているのでぜひ

ピックアップニュース

CICERO

MetaAIがまだやばいAIを公開。

戦略ボードゲーム「Diplomacy」で人間レベルのパフォーマンスを達成するために訓練された「Ciero」が公開。40の匿名のオンライン外交ゲームにおいて、人間のプレイヤーの平均スコアの2倍以上を記録。1997年のDeep Blueがチェスの世界チャンピオンに勝利してから、現在は言葉と戦略を使って人間と協力して勝てるようにもなってる…、これはすごいけど恐ろしさも感じるレベル。

Meta AI presents CICERO — the first AI to achieve human-level performance in Diplomacy, a strategy game which requires building trust, negotiating and cooperating with multiple players.

Learn more about #CICERObyMetaAI: https://t.co/hG2R0T2HZx pic.twitter.com/IGw4RObA8n
— Meta AI (@MetaAI) November 22, 2022

ByteDanceから動画生成AI「MagicVideo」が公開

ByteDanceが動画生成AI「MagicVideo」を発表https://t.co/E8pwpL7yvf

1枚のGPUカードで256×256のビデオクリップを生成でき、最近のビデオ拡散モデルと比較して64倍の高速化を実現pic.twitter.com/dxOIgY5aBC https://t.co/19mgDDP2k7
— やまかず (@Yamkaz) November 22, 2022

開発

AIを搭載したFigmaの魔法のデザインツール「Magician」

AIでテキスト入力に基づいたベクターアイコン、コピーライティング、画像を生成する。デモビデオのベクターアイコンの精度高すぎてビビります。

AIを搭載したFigmaの魔法のデザインツール
「Magician」が公開！https://t.co/0JoeZ33flP

AIでテキスト入力に基づいたベクターアイコン、コピーライティング、画像を生成する。ベクターアイコンの精度高すぎてビビった pic.twitter.com/xZWfEOPmt7
— やまかず (@Yamkaz) November 22, 2022

中国圏よりEvt_V2が発掘..？

こちら詳しく分かっていないですが、Evt_V2というモデルも発掘されたようです。

なるほど…中華圏より新たな画像生成AIモデルEvt_V2か…
素性的にはNovelAIの派生モデルかな？
開発者が堂々とpixivランキングの上位画像15000枚を使って追加学習したって言ってる…#Evt_V2 #AI潤羽るしあ #潤羽美術館 #画像生成AI pic.twitter.com/BX9XuXvDId
— 高杉　光一🦋 (@kuronagirai) November 21, 2022

#Evt_V2 で特撮ヒーロー、
生成がうまくいくと一番大胆な構図が得られるが作画崩壊率も高い pic.twitter.com/cPvVusRvmt
— もりそば@プリン大明神の人 (@Wu1btZ33HHSYnPR) December 2, 2022

NovelAIの画像生成機能にFurry Beta V1.3が追加

一貫性、詳細、定義がさらに改善したとのこと。

Our third iteration of the #NovelAIFurry (Beta V1.3) Model is live!
Featuring further improvements to coherency, details and definition. Some generations were often monochromatic, so we fixed that!

Don't overlook the possibilities of the #Furry model - it can do so much more! pic.twitter.com/V3YaDKBQmH
— NovelAI (@novelaiofficial) November 21, 2022

CarperAIより、trlX v0.3.0が公開

Stability AIの組織の中の1つ、CarperAIよりtrlX v0.3.0が公開。ハイパーパラメータスイープをサポート、損失とモデルのリファクタリングにより拡張性が向上、PPOとILQLの最適化。以下githubより引用。

trlXは、強化学習により、ハギングフェイスに対応した言語モデル（gpt2,gpt-j,gpt-neo,gpt-neoxベース）を、与えられた報酬関数または報酬ラベル付きデータセットを介して、最大20Bパラメータまで微調整することが可能です。近接型政策最適化(PPO)と暗黙的言語Q学習(ILQL)が実装されています。

trlX v0.3.0 is here! We've been working hard on this for the last month and we're super excited :) Highlights: Support for hyper parameter sweeps, refactored losses and models allows for better extendability, optimizations to PPO and ILQL.https://t.co/K9IP8FcMHn 1/5
— Carper (@carperai) November 21, 2022

Stability AIがGlacticaを公開予定？

Meta AIから公開され話題になったAI Galacticaですが速攻でDemoが非公開に。詳細は以下。

Staibility AIのEmadさんがそれを復活させようとしてる..？

Glactica 120bnのデモを科学のためにオンラインに戻すべき？
ライセンス条件を考えるとMetaAIから反対はないと仮定して

Should we put a @paperswithcode Galactica 120bn demo back online for science?

Assuming no objections from @MetaAI given license terms 🤔
— Emad (@EMostaque) November 21, 2022

84% の賛成票は、コメントほど興味深いものではありません。 @StabilityAIはそれを元に戻し、研究者に無料の API アクセスを提供しようとしています。もしかしてハッカソン？
Galactica の重みは、商用利用を許可しないライセンスの下でリリースされましたが、分析すると興味深い場合があります。

Tbh the 84% yes votes are not as interesting as the comments. @StabilityAI will get it back up and look to offer free API access to researchers. Perhaps a hackathon? 🤔

Galactica weights released under a license that permits no commercial use but may be interesting to analyse. https://t.co/nBgyzxhgB2
— Emad (@EMostaque) November 22, 2022

npakaさんの音声合成AIまとめ

最近話題の音声合成AI まとめ｜npaka #note https://t.co/5sb4A4I3vl
— 布留川英一 / Hidekazu Furukawa (@npaka123) November 22, 2022

「AltDiffusion」が中国語と英語以外に多言語版が存在, Alt Diffusion-m9

#AltDiffusion は中国語と英語以外に多言語版もある

「AltDiffusion-m9」は日本語の呪文も使えるモデル！
９言語に対応（英,中,スペイン,フランス,ロシア,日本語,韓国,アラビア,イタリア）https://t.co/BZaFXu21pK

CLIPをAltCLIP-m9に変え、Contrastive Learningで対照学習https://t.co/cyn6IXyNA2 pic.twitter.com/Xu3jAvJUNs
— forasteran (@forasteran) November 19, 2022

JukeboxWebUIのv0.4が公開

The most requested feature for #JukeboxWebUI v0.4 was advanced sample manipulation, so check this out:

I pick a region in one composed song and replace it with a snippet from another.

Come on! 🤯 pic.twitter.com/xxKRMLTtWn
— Vova “words are a motherfucker” Zakharov (@vovahimself) November 21, 2022

voltaMLで1行のコードを使用して、Stable-diffusionのDreamboothを最大2.5倍高速化

（コードは今綺麗にしていて、もうすぐしたら公開するとのこと）

Jak's Creepy Critter Packモデルが公開

リアルな写真Diffusionモデルが構築中

こちらを作っている組織は確認している限り他にいくつか存在しているので、今後どういう動き方をしていくかそれぞれ気になるところ。

✨ Trained my own model for https://t.co/ll0YGEo53Z for more photorealistic renders called

`people-diffusion`

I think by this week I can deploy it!

🤖 These are all 100% AI-generated people

Skin finally has pores now but don't look at the hands yet please 😂 pic.twitter.com/Y6wbPz3BSS
— @levelsio (@levelsio) November 21, 2022

GPT-4の噂

GPT-4は12月～2月頃に登場すると噂されています。
GPT-3のパラメータは1750億個
GPT-4のパラメータは100兆個と言われています。
GPT-3の500倍以上の性能になります。
GPT-4でどんなものが作れるようになるんだ！？

GPT-4 is rumored to be coming soon, sometime between Dec - Feb

- GPT-3 has 175 billion parameters
- GPT-4 supposedly has 100 trillion parameters

It is something like 500x more powerful than GPT-3

What kinda stuff will you be able to create with GPT-4!? pic.twitter.com/6sEi9KhvFy
— Andrew Steinwold (@AndrewSteinwold) November 22, 2022

テキストからオーディオを生成する最強の方法「http://clip.audio」がリリース

テキストからオーディオを生成する最強の方法
「https://t.co/fAxv8UQi8A」がリリースされてた

1.正確なオーディオをすばやく検索
2.より関連性の高い結果を得るためのお気に入り機能
3.新しい音声の生成 (近日公開)pic.twitter.com/UrtrXSUeT1 https://t.co/dwm1YnIGJL
— やまかず (@Yamkaz) November 23, 2022

表現, 活用

"A graffiti-inspired dragon by accident"

ファンアートが作れるnijijourney

チェンソーマンもいけるよ
マキマさんとパワーちゃん#nijijourney pic.twitter.com/KFkQHfHcAy
— かりみや (@Callimiya) November 22, 2022

遊戯出せたのが嬉しすぎて、色々と二次創作してた#nijijourney pic.twitter.com/ht6oAMCwgC
— かりみや (@Callimiya) November 22, 2022

鬼滅の刃もめちゃくちゃ強い#nijijourney pic.twitter.com/ROyncVfhKE
— かりみや (@Callimiya) November 21, 2022

nijijourneyはちゃんとラーメン食べれる👍

niji · journeyだとちゃんとラーメン食べている、当たり前だけど凄い進化だでもまどマギのまどか率が高いな　#nijijourney pic.twitter.com/TkUSOc2CWH
— 丹羽　シャーマニックテンプル旅チケット5旅46 (@298gama) November 20, 2022

CLIP Segでマスク生成してimg2img

テキストから画像編集。自動でマスク生成して、マスク部分をSDの生成画像で置き換え。

text-to-image-editing

words -> mask -> replacement

describe what you want -> automatic mask generation with CLIPSeg -> replace mask with Stable Diffusion generation

gr.demo: https://t.co/K0Kwl5Psds pic.twitter.com/vexsEOmrf6
— Mishig Bankman-Fried (@mishig25) November 21, 2022

研究

音楽からダンス生成「EDGE」

音楽に忠実で、リアルで物理的にもっともらしく、編集可能なダンスを生成することができる「EDGE」が発表。

音楽からダンス生成！

音楽に忠実で、リアルで物理的にもっともらしく、編集可能なダンスを生成することができる「EDGE」が発表。https://t.co/4VqEkw0u7c

新しい評価指標で従来の手法を大幅に改善 pic.twitter.com/I6f0lnYcdJ
— やまかず (@Yamkaz) November 22, 2022

テキストからベクターデータを生成する「VectorFusion」が発表

テキストからベクターデータを生成する
「VectorFusion」が発表https://t.co/CvddKMiBmY

キャプション付きSVGを学習している訳ではなく、テキストから画像を生成するモデルを利用し、SVGにエクスポート可能なベクターグラフィックスを生成できること

個人的に期待していたやつ pic.twitter.com/h6Tz2PHfpG
— やまかず (@Yamkaz) November 22, 2022

UniMASK: Unified Inference in Sequential Decision Problems

SceneComposerが公開

SceneComposer: Any-Level Semantic Image Synthesis
abs: https://t.co/nAc1pu631J
project page: https://t.co/9O7pwHyRvA pic.twitter.com/8yfhGvtrjw
— AK (@_akhaliq) November 22, 2022

画像内の指定した部分を切り出す「ClipCrop」が公開

「SinFusion」が公開

単一の画像や動画で学習し、様々なタスクができる拡散モデル、SinFusionが公開。Runwayに搭載されそう。バリエーション生成、動画の引き伸ばし、遡りなどができてる。

「AR-LDM」が公開

履歴のキャプションと生成画像に自動回帰的に条件付けされた、ストーリー可視化および継続タスクのための潜在的拡散モデル「AR-LDM」が公開。

適応により新しいキャラクターへの汎化が可能とのこと。

「DDCap」が公開

画像キャプションのタスクに対してより柔軟なデコーディングを可能にする拡散ベースのキャプションモデル、「DDCap」が公開。

Retrieval-Augmented Multimodal Language Modeling

テキストと画像の混合物を検索・生成できる初のマルチモーダルモデル。
（学習コストとモデルサイズを削減）

NeurIPS 2022で「LAION-5B」の論文がOutstanding Paper Award を受賞

We are in somewhat mild, but very pleasant shock - our LAION-5B paper has just received Outstanding Paper Award at NeurIPS 2022.
We need some time to process that, more details will follow from different collaborators that contributed to that effort.https://t.co/twgnH9KFHl pic.twitter.com/TUA7nf3CXl
— Jenia Jitsev @ NeurIPS 🏳️‍🌈 🇺🇦 (@JJitsev) November 21, 2022

分子レベルで革新的な脳型コンピューティングを実現する新研究を発表

DeepMind: 人間のフィードバックからの強化学習によるマルチモーダルインタラクティブエージェントの改善

Improving Multimodal Interactive Agents with Reinforcement Learning from Human Feedback
abs: https://t.co/axlw7GJ8fw pic.twitter.com/97vhJZNUOJ
— AK (@_akhaliq) November 22, 2022

おーっ。
DeepMindが人間とのインタラクション（人間からタスク指示、情景質問、AIからも人間へ質問等）で報酬をフィードバックすることで仮想世界で「マルチモーダル」エージェントが様々なタスクの成功率を上げるとのこと。
「マルチモーダル」なので視覚入力と言語入力から行動出力、言語出力可能。 https://t.co/QhwJzeyxIx
— bioshok(INFJ) (@bioshok3) November 22, 2022

思想・ムーブメント

落合さんがPIVOTでDiffusionモデルや、今後のAIの動向について言及

PIVOTで落合さんがDiffusionモデルやシンギュラリティ、最近の動向について説明してるよ！分かりやすいpic.twitter.com/s4SXMKQzRm https://t.co/qFbGLaoksR
— やまかず (@Yamkaz) November 22, 2022

もし１０秒で査読に５日かかる論文を生成できるとするならば，我々は本当に論文を読むだろうか．120秒で60分の音楽アルバムが生成される時代に60分かけて音楽を聴くだろうか．情報の消費活動の主体がコミュニケーションにあるならば我々は静的パッケージから動的インタラクションに移行するだろう．
— 落合陽一 Yoichi OCHIAI (@ochyai) October 24, 2022

ねぇ、モデルほしい？

Redditでこの日１番伸びていた投稿。SDモデルがとても怪しい扱いを受けている場合があることがわかります。

https://www.reddit.com/r/StableDiffusion/comments/z1lw78/hey_bro_want_some_models/

"AIリスク: 正統派と改革派の違い" by Scott Aaronson (OpenAI)

人間のアーティストが人工知能の時代をどのように生き残ることができるか

@ganbrood tells Alex Estorick @AlexEstorick how human artists can survive the age of artificial intelligence.

Fantastic interview on @RtClick_Save https://t.co/MfntR45MQP pic.twitter.com/45vTMecHkq
— KVG (@KateVassGalerie) November 21, 2022

中国のコミュニティでNAIリークモデル使ったGoogle Colabノートブックを共有してたらNovelAIがDMCAテイクダウン

中国のコミュニティでNAIリークモデル使ったGoogle Colabノートブックを共有してたらNovelAIがDMCAテイクダウンを仕掛けてきたらしい。という事はNAIリークモデル使うと著作権違反なのは間違いないらしい。でもそれってOpenRail Mライセンスとバッティングしてないか？　　https://t.co/rxrRWIVU3U
— うみゆき@AI研究 (@umiyuki_ai) November 22, 2022

ジェネレーティブアートと絵画の出会い

（Emadさん出てるよ！）

⁦Generative art meets painting ~ Artist David Salle and @EMostaque⁩ discussing how ⁦@StabilityAI⁩ can be used as a tool for creation and 🤔

On stage at ⁦⁦@Founders_Forum⁩, interview by ⁦@DanikaDanika⁩ from ⁦@eatworksnyc⁩ https://t.co/oZXN09LsNe
— John Borthwick (@Borthwick) November 22, 2022

ジェネレーティブAIはスポーツの「次の大きなスポンサーシップの縦軸」になる可能性があります。

AIはすでにほとんどのクリエイティブなタスクに成功し、日進月歩で進化している

ジェネレーティブAIによる帰属問題

Copilotの集団訴訟について

GitHub Copilotの集団訴訟について
著作権とフェアユース、オープンソースライセンスの表示、画像生成AIとの比較｜IT navi @itnavi2022 #note https://t.co/hRuj9fdmJp
— IT navi (@itnavi2022) November 21, 2022

勉強

2週間後から、Hugging face深層強化学習クラス v2.0🤗

We just published the website and the syllabus for the @huggingface Deep Reinforcement Learning Course🤗

You can now 👀 what environments and topics we’re going to study.

The course is starting in two weeks 🔥

Check it now 👉 https://t.co/wJ4TQwHzgQ pic.twitter.com/64w7IEMcLL
— Thomas Simonini (@ThomasSimonini) November 22, 2022

最後に

Twitterに、毎日製作したものや、最新情報、検証を載せたりしています。
よかったら見ていただけたら嬉しいです。

Tweets by Yamkaz

画像生成AIの実験, 最新情報のまとめはこちら

過去の号はこちら

次の号はこちら

サポートいただけると喜びます。本を読むのが好きなので、いただいたものはそこに使わせていただきます

日刊 画像生成AI (2022年11月22日)