M2UGen の概要
「M2UGen」の概要をまとめました。
1. M2UGen
「M2UGen」は、テキスト・画像・動画からの音楽生成・音楽理解・音楽編集が可能です。
「音楽理解」には「MERT」、「画像理解」には「ViT」、「動画理解」には「ViViT」、「音楽生成」には「MusicGen」「AudioLDM2」を利用し、「アダプタ」や「LLaMA2」と組み合わせることで、複数の能力を持つモデルとなっています。
2. M2UGen のデータセット
「MU-LLaMA」「MPT-7B-Chat」を使用して音楽指向のデータセットを、「BLIP画像キャプションモデル」「VideoMAEキャプションモデル」を使用してキャプションを生成します。
2-1. MUCapsデータセット
21966曲、1273.78時間のキャプション生成のためのデータセットです。
2-2. MUImageデータセット
9966の画像-音楽ペア、27.72時間の曲の画像説明文生成のためのデータセットです。
2-3. MUVideoデータセット
13203の動画-音楽ペア、36.72時間の曲の動画説明文生成のためのデータセットです。
2-4. MUEditデータセット
10815の音楽-音楽ペア、60.22時間の曲の音楽編集のためのデータセットです。
3. M2UGen のデモ
3-1. テキストからの音楽生成と音楽理解
テキストからの音楽生成と音楽理解に関するデモです。
3-2. テキストからの音楽生成と音楽編集
テキストからの音楽生成と音楽編集に関するデモです。
3-3. 画像からの音楽生成と音楽理解
画像からの音楽生成と音楽理解に関するデモです。
3-4. 画像からの音楽生成と音楽編集
画像からの音楽生成と音楽編集に関するデモです。
3-5. 動画からの音楽生成と音楽理解
動画からの音楽生成と音楽理解に関するデモです。
3-6. 動画からの音楽生成と音楽編集
動画からの音楽生成と音楽編集に関するデモです。
3-7. 音楽編集
音楽編集と音楽理解に関するデモです。
この記事が気に入ったらサポートをしてみませんか?