Tiktokを手掛けるByteDanceが音楽生成AI「StemGen」他 / Catch up on AI 2023.12.16

Yoshihiro Tanaka | taziku

2023年12月16日 23:45

Pick up

Tiktokを手掛けるByteDanceがが音楽生成AI、StemGenのプロジェクトページを公開。多くのサンプルと原理が掲載されています。

大枠の仕組みとしては

1.入力された音楽クリップを分析
2.音楽を理解
3.モデルデータと合わせて音楽生成

music-to-musicとも言える生成AIが出現。まだデモやコードの公開はされていませんが、これがリリースされると大きく音楽生成AIも情勢が変わってきそうです。

音楽生成AI StemGen
Project：https://julian-parker.github.io/stemgen/
arXiv：https://arxiv.org/abs/2312.08723

【続報】音楽生成AI StemGen

Tiktokを手掛けるByteDanceが発表したStemGenのプロジェクトページが公開。多くのサンプルと原理が掲載。

1.入力された音楽クリップを分析
2.音楽を理解
3.モデルデータと合わせて音楽生成

music-to-musicとも言える生成AI

続く>>pic.twitter.com/sk9cnKCT7e
— 田中義弘 | taziku CEO / AI × Creative (@taziku_co) December 15, 2023

Catch up on AI

Midjourney v6にアップデートか？

【Midjourney v6にアップデートか？】
半年間アップデートが止まっていた、Midjourney v6のアップデートが来週リリースとのこと！

プロンプトの理解、世界の知識、画像プロンプト、テキストレンダリングなどがアップデートされると、Discordでは言及されています。#生成AI pic.twitter.com/jbQyvDV88E
— 田中義弘 | taziku CEO / AI × Creative (@taziku_co) December 16, 2023

生成AIのキャプションが進化「Pixel Aligned Language Models」

【生成AIのキャプションが進化】
画像についてのキャプション（説明）は、生成AIの学習や画像を解析するにあたりとても重要なもの。

Pixel Aligned Language Modelsは、画像のピクセル座標とともに画像キャプションを生成できる技術。

続く>>#生成AI #キャプション pic.twitter.com/jYK2vRLqXR
— 田中義弘 | taziku CEO / AI × Creative (@taziku_co) December 16, 2023

感情が込もった音声をAIで生成「EasyBertVits2」

【感情が込もった音声をAIで生成】
EasyBertVits2は、文章から感情がはいった音声を生成できるTTS。VRAM 8GB以上で動作し、GitやPythonも不要。

新たな音声の学習も可能！音声生成や学習が手軽になる素晴らしいツール！是非音声ONでご覧ください！

続く>>#生成AI #音声 pic.twitter.com/VtfjDQxrEy
— 田中義弘 | taziku CEO / AI × Creative (@taziku_co) December 16, 2023

生成AIの文字の問題を克服「UDiffText」

【生成AIの文字の問題を克服】
UDiffTextは、文字認識拡散モデルで、画像の中の文字を制御できる技術。

画像生成AIは文字が苦手だと言われてきましたが、英語についてはかなり精度が出るように。
日本語はおそらくはまだかかりそうですが、いずれ...！

続く>>#生成AI pic.twitter.com/4yQibthXCz
— 田中義弘 | taziku CEO / AI × Creative (@taziku_co) December 16, 2023

NeRFも超高速へ、ZeroRFで従来の1/10程度の時間で生成

【NeRFも超高速へ】
ZeroRF は、事前のトレーニングや正規化を行わず、3Dの構築を、6方向から写真があれば、構築が可能で従来の1/10程度の時間で同品質のシーンを構築可能。

速度が変わると使い方もシーンも変わるため、これは期待の技術。#AI #NeRF #3D pic.twitter.com/y6ov930Joy
— 田中義弘 | taziku CEO / AI × Creative (@taziku_co) December 16, 2023

AnimateDiffをさらに強化!SparseCtrl

【AnimateDiffをさらに強化!SparseCtrl】

SparseCtrlは、キーフレームや画像の深度から、指定した動きに制御できるというもの。
AnimateDiffのv3がリリースされ、様々な技術との組み合わせで、一貫性の向上が世界中で探られています。

続く>>#生成AI #動画生成AI pic.twitter.com/cfTaMp286G
— 田中義弘 | taziku CEO / AI × Creative (@taziku_co) December 16, 2023

AnimateDiffさらに一貫性が進化、v3_sd15_mm+Adapter LoRA

【AnimateDiffさらに一貫性が進化】
v3_sd15_mmとAdapter LoRAを組み合わせて一貫性の高いアニメを制作可能との情報が！適度に動きながら一貫性が大きく向上しているのが分かる。

現実的なワークフローで大きなクオリティアップが見込める。

続く>>#生成AI #AI動画 pic.twitter.com/CK4aibboXF
— 田中義弘 | taziku CEO / AI × Creative (@taziku_co) December 15, 2023

生成AIの特定の要素だけをコントロールできるConcept Slidersのテスト

【生成AIの特定の要素だけをコントロール】

以前、取り上げたConcept Slidersのテスト動画、肌の色だけを調整するテスト動画。これはアイデア出しやリファレンス探しにはすごく使えそう！

ここだけこうしたいは生成AIですごく多いのでこれは助かる。

その他動画は続きから>>#生成AI #画像生成AI https://t.co/4OFryV1T5m
— 田中義弘 | taziku CEO / AI × Creative (@taziku_co) December 15, 2023

AIのNewsやアートワーク情報を更新中⚡

X（Twitter）ではAIの最新情報を発信中🐦

Tweets by taziku_co

この記事が気に入ったらサポートをしてみませんか？