Weekly Report 2024/02/21 (wed)

2024年2月21日 12:24

個人的に気になったニュースや自主制作などの週報メモです。

自主制作 / 記事

Elemental Anima #0123

Elemental Anima #0123

Created by :
takio koizumi (Human) x HAL (AI)

🔽Detail / Link pic.twitter.com/4mTkeW6TZj
— takio koizumi | takion.eth (@takion0105) February 17, 2024

春一番が吹いた日、近くの公園に散歩しに行きました。梅が綺麗に咲いていて、メジロが梅を啄んでいるのを眺めているとメジロが"春を編んでいる"ように思えました。その時に撮影した写真と、購入したフェルトと毛糸をHAL(AI)に学習してもらい制作しました。前作に引き続き、Anima(魂)の宿った創作物にはギョロ目ちゃんを潜ませようと思います。

展示のお知らせ

☯展示のお知らせ☯

CATTOKYO Generative AI x CAT
『ネコといる暮らしVol.11』

作品：Elemental Anima #0119 and more
場所：池袋パルコ
日程：2/22(木)～2/25(日)
プレスリリース：https://t.co/rIpIGFkOQG
URL：https://t.co/6JXYINlxhJ #AIart #ElementalAnima #CATTOKYO pic.twitter.com/uG1xoR63gF
— takio koizumi | takion.eth (@takion0105) February 6, 2024

[ニュース] AI関連

[動画] OpenAI - Sora

Dall-Eが初めて発表された時の衝撃を思い出しました。このテクニカルリサーチによると物理世界の汎用シミュレーターを目指すとの事。去年12月に
Runwayが発表していたGeneral World Modelsと思想が同じですね。今回はStable Diffusionが出来る流れと同じ事が起きるのか？"Sora"と言う名前は、モデルの思想と五大における"空(くう)"の考え方にも通じるので好きです。敵対と拡散のサイクルが加速し"天元突破"しようとしている中、どんな哲学を持って生きていくのか。
"色即是空空即是色"
"Everything is a particle, Everything is connected."

[3D] STABLE PROJECTORZ

Unreal Engineで画像生成したものをUVマッピングするアプローチがありましたが、こちらはSubstance 3D Painterの様な操作感で、AI生成とinpaintをしつつテクスチャーを描けるのでかなり便利です。Adobe fireflyもあるのでいずれSubstanceにも似たような機能が導入されそうですね。Automatic 1111環境があればすぐ導入できますので興味があれば是非。

[画像] ComfyUI- GLIGEN GUI

以前紹介したMicrosoft - GLIGENをComfyUIをバックエンドにして使いやすいようにGUIを用意したものです。指定した範囲それぞれにプロンプトを入れて制御できるのは便利ですね。

[エージェント] Microsoft - UFO

名前が謎ですが、テキストでWindowsを自動操作できるAIエージェントは夢ですね。どこまで出来るようになるのか楽しみです。"日曜日までにElemental Animaの新作を制作して、NFTをMINTした後に、各SNSにポストしておいてください"

[学習] Neural Spline Fields for Burst Image Fusion and Layer Separation

撮影した際、手前に映り込んだフェンスやガラスの反射などをレイヤーで分けられていますね。

[学習] DoRA: Weight-Decomposed Low-Rank Adaptation

DoRAは、モデルの重みを「大きさ」と「方向」に分解し、LoRAを上回る効率的な新しいモデルチューニング。パラメータを0.01%の微細な調整もでき、LoRAの半分のパラメーターでLoRAを上回る性能だそうなので、実際に触ってみるの楽しみですね。

[LLM] Google - Gemini 1.5

"1000万トークンまでの情報検索をテスト的に実現、1時間の動画、11時間の音声データ、3万行以上のソースコード、70万語のテキストなどの入力も一度に処理"。凄すぎますね・・・。

[音] ElevenLabs - Sora

We were blown away by the Sora announcement but felt it needed something...

What if you could describe a sound and generate it with AI? pic.twitter.com/HcUxQ7Wndg
— ElevenLabs (@elevenlabsio) February 18, 2024

Soraのデモ映像に対して、ElevenLabsが更にサウンドエフェクトをAI生成で入れていますね。シーンと動作に合ったサウンドエフェクトでこちらも凄いですね。ウェイトリスト募集もしていたので、まんまと登録しました。

[動画] LAVE: LLM-Powered Agent Assistanceand Language Augmentation for Video Editing

動画編集エージェントですね。Soraで映像を生成して、ElevenLabsで音を入れて、LAVEで編集してもらい、ワークフローを体験したらどうなってしまうのか。

[画像] OOTDiffusion: Outfitting Fusion based Latent Diffusion for Controllable Virtual Try-on

amazonが以前発表した仮想試着AIDiffuse to Chooseと同じ方向ですね。こちらはDemoもすぐ触れるのでご興味がありましたら是非。

[3D] Image to 3D - Rodin Gen-1 Waitlist

🤫A simple comparison between #Rodin Gen-1 and previous 3D GenAI product.
🔥The #Sora Moment in #3D has never been closer.🧠

🚀Join in Waitlist of Rodin Gen-1 now!https://t.co/DXPeyFUtfw #CG #GenerativeAI https://t.co/hV5mwqgbQI pic.twitter.com/X9Ch4H2ZBE
— Deemos Tech (@DeemosTech) February 20, 2024

クオリティの高いImage to 3Dのデモを公開し続けてきたRodin Gen-1のウェイトリスト募集が開始しました。

[3D] DiLightNet: Fine-grained Lighting Control for Diffusion-based Image Generation

DiLightNet

Fine-grained Lighting Control for Diffusion-based Image Generation

paper presents a novel method for exerting fine-grained lighting control during text-driven diffusion-based image generation. While existing diffusion models already have the ability to generate… pic.twitter.com/e6yGOFpggd
— AK (@_akhaliq) February 20, 2024

プロンプトと生成画像によってかなり細かくライティングをコントロール出来る様になってますね。

[AI活用] AnimateDiff + origami world

Using AnimateDiff to create an origami world
Collab @CitizenPlain Music @Artlist_io

I'll share our BTS tomorrow pic.twitter.com/5RMGizmvA1
— Karen X. Cheng (@karenxcheng) February 20, 2024

Karen X. ChengさんのAI活用は毎回本当に素晴らしいですね。そして、現状自分もこの表現の方向に進んでいるのですごくわかります。メイキングを明日公開するそうなので楽しみです。

[音楽] Meta - MAGNeT

Researchers at Meta recently shared MAGNeT, a single non-autoregressive transformer model for text-to-music & text-to-sound generation capable of generating audio on-par with the quality of SOTA models — at 7x the speed.

MAGNeT is open source as part of AudioCraft. Hear audio… pic.twitter.com/ZO3TDK75JC
— AI at Meta (@AIatMeta) February 14, 2024

実際にローカル環境で生成してみましたが、以前に比べてかなりクオリティが上がっていました。欲を言えば、三分ぐらい生成できるとありがたいです。

[画像] Stable Cascade - ComfyUI

Stable Cascadeが公開されて3日で実装されました。

[記事] 日立グループ講演レポート｜映画監督押井守氏「人間に残されたフロンティアを語る：AIは「魂」を宿すのか」

アニメや漫画、SF関係の場とは違う押井監督の講演記事は興味深かったです。"Ghost" "Anima"は宿ると思います。

[記事] OpenAIの評価額が12兆円に到達との報道、わずか10カ月ほぼ3倍に

WorldCoinも上がっていただきありがたいです。アルトマンさん、ベーシックインカムお願いします。

この記事が気に入ったらサポートをしてみませんか？

Weekly Report 2024/02/21 (wed)

自主制作 / 記事

Elemental Anima #0123

展示のお知らせ

[ニュース] AI関連

[動画] OpenAI - Sora

[3D] STABLE PROJECTORZ

[画像] ComfyUI- GLIGEN GUI

[エージェント] Microsoft - UFO

[学習] Neural Spline Fields for Burst Image Fusion and Layer Separation

[学習] DoRA: Weight-Decomposed Low-Rank Adaptation

[LLM] Google - Gemini 1.5

[音] ElevenLabs - Sora

[動画] LAVE: LLM-Powered Agent Assistanceand Language Augmentation for Video Editing

[画像] OOTDiffusion: Outfitting Fusion based Latent Diffusion for Controllable Virtual Try-on

[3D] Image to 3D - Rodin Gen-1 Waitlist

[3D] DiLightNet: Fine-grained Lighting Control for Diffusion-based Image Generation

[AI活用] AnimateDiff + origami world

[音楽] Meta - MAGNeT

[画像] Stable Cascade - ComfyUI

[記事] 日立グループ講演レポート｜映画監督 押井守氏「人間に残されたフロンティアを語る：AIは「魂」を宿すのか」

[記事] OpenAIの評価額が12兆円に到達との報道、わずか10カ月ほぼ3倍に

[記事] 日立グループ講演レポート｜映画監督押井守氏「人間に残されたフロンティアを語る：AIは「魂」を宿すのか」