見出し画像

Weekly Report 2024/02/21 (wed)

個人的に気になったニュースや自主制作などの週報メモです。

自主制作 / 記事

Elemental Anima #0123

春一番が吹いた日、近くの公園に散歩しに行きました。梅が綺麗に咲いていて、メジロが梅を啄んでいるのを眺めているとメジロが"春を編んでいる"ように思えました。その時に撮影した写真と、購入したフェルトと毛糸をHAL(AI)に学習してもらい制作しました。前作に引き続き、Anima(魂)の宿った創作物にはギョロ目ちゃんを潜ませようと思います。


展示のお知らせ


[ニュース] AI関連

[動画] OpenAI - Sora

Dall-Eが初めて発表された時の衝撃を思い出しました。このテクニカルリサーチによると物理世界の汎用シミュレーターを目指すとの事。去年12月に
Runwayが発表していたGeneral World Modelsと思想が同じですね。今回はStable Diffusionが出来る流れと同じ事が起きるのか?"Sora"と言う名前は、モデルの思想と五大における"空(くう)"の考え方にも通じるので好きです。敵対と拡散のサイクルが加速し"天元突破"しようとしている中、どんな哲学を持って生きていくのか。
"色即是空 空即是色"
"Everything is a particle, Everything is connected."


[3D] STABLE PROJECTORZ

Unreal Engineで画像生成したものをUVマッピングするアプローチがありましたが、こちらはSubstance 3D Painterの様な操作感で、AI生成とinpaintをしつつテクスチャーを描けるのでかなり便利です。Adobe fireflyもあるのでいずれSubstanceにも似たような機能が導入されそうですね。Automatic 1111環境があればすぐ導入できますので興味があれば是非。


[画像] ComfyUI- GLIGEN GUI

以前紹介したMicrosoft - GLIGENをComfyUIをバックエンドにして使いやすいようにGUIを用意したものです。指定した範囲それぞれにプロンプトを入れて制御できるのは便利ですね。


[エージェント] Microsoft - UFO

名前が謎ですが、テキストでWindowsを自動操作できるAIエージェントは夢ですね。どこまで出来るようになるのか楽しみです。"日曜日までにElemental Animaの新作を制作して、NFTをMINTした後に、各SNSにポストしておいてください"


[学習] Neural Spline Fields for Burst Image Fusion and Layer Separation

撮影した際、手前に映り込んだフェンスやガラスの反射などをレイヤーで分けられていますね。


[学習] DoRA: Weight-Decomposed Low-Rank Adaptation

DoRAは、モデルの重みを「大きさ」と「方向」に分解し、LoRAを上回る効率的な新しいモデルチューニング。パラメータを0.01%の微細な調整もでき、LoRAの半分のパラメーターでLoRAを上回る性能だそうなので、実際に触ってみるの楽しみですね。


[LLM] Google - Gemini 1.5

"1000万トークンまでの情報検索をテスト的に実現、1時間の動画、11時間の音声データ、3万行以上のソースコード、70万語のテキストなどの入力も一度に処理"。凄すぎますね・・・。


[音] ElevenLabs - Sora

Soraのデモ映像に対して、ElevenLabsが更にサウンドエフェクトをAI生成で入れていますね。シーンと動作に合ったサウンドエフェクトでこちらも凄いですね。ウェイトリスト募集もしていたので、まんまと登録しました。


[動画] LAVE: LLM-Powered Agent Assistanceand Language Augmentation for Video Editing

動画編集エージェントですね。Soraで映像を生成して、ElevenLabsで音を入れて、LAVEで編集してもらい、ワークフローを体験したらどうなってしまうのか。


[画像] OOTDiffusion: Outfitting Fusion based Latent Diffusion for Controllable Virtual Try-on

amazonが以前発表した仮想試着AIDiffuse to Chooseと同じ方向ですね。こちらはDemoもすぐ触れるのでご興味がありましたら是非。


[3D] Image to 3D - Rodin Gen-1 Waitlist

クオリティの高いImage to 3Dのデモを公開し続けてきたRodin Gen-1のウェイトリスト募集が開始しました。


[3D] DiLightNet: Fine-grained Lighting Control for Diffusion-based Image Generation

プロンプトと生成画像によってかなり細かくライティングをコントロール出来る様になってますね。


[AI活用] AnimateDiff + origami world

Karen X. ChengさんのAI活用は毎回本当に素晴らしいですね。そして、現状自分もこの表現の方向に進んでいるのですごくわかります。メイキングを明日公開するそうなので楽しみです。


[音楽] Meta - MAGNeT

実際にローカル環境で生成してみましたが、以前に比べてかなりクオリティが上がっていました。欲を言えば、三分ぐらい生成できるとありがたいです。


[画像] Stable Cascade - ComfyUI

Stable Cascadeが公開されて3日で実装されました。


[記事] 日立グループ講演レポート|映画監督 押井守氏「人間に残されたフロンティアを語る:AIは「魂」を宿すのか」

アニメや漫画、SF関係の場とは違う押井監督の講演記事は興味深かったです。"Ghost" "Anima"は宿ると思います。


[記事] OpenAIの評価額が12兆円に到達との報道、わずか10カ月ほぼ3倍に

WorldCoinも上がっていただきありがたいです。アルトマンさん、ベーシックインカムお願いします。

この記事が気に入ったらサポートをしてみませんか?