M2UGen の概要

2024年1月9日 15:17

「M2UGen」の概要をまとめました。

1. M2UGen

「M2UGen」は、テキスト・画像・動画からの音楽生成・音楽理解・音楽編集が可能です。

「音楽理解」には「MERT」、「画像理解」には「ViT」、「動画理解」には「ViViT」、「音楽生成」には「MusicGen」「AudioLDM2」を利用し、「アダプタ」や「LLaMA2」と組み合わせることで、複数の能力を持つモデルとなっています。

・ホーム
・コード
・デモ

「MU-LLaMA」「MPT-7B-Chat」を使用して音楽指向のデータセットを、「BLIP画像キャプションモデル」「VideoMAEキャプションモデル」を使用してキャプションを生成します。

21966曲、1273.78時間のキャプション生成のためのデータセットです。

・音楽ファイル → MU-LLaMA → 音楽キャプション
・画像ファイル → BLIP画像キャプションモデル → 画像キャプション
・動画ファイル → VideoMAEキャプションモデル → 動画キャプション

9966の画像-音楽ペア、27.72時間の曲の画像説明文生成のためのデータセットです。

・画像キャプション + 音楽キャプション → MPT-7B → MUImageの説明文

13203の動画-音楽ペア、36.72時間の曲の動画説明文生成のためのデータセットです。

・動画キャプション + 音楽キャプション → MPT-7B → MUVideoの説明文

10815の音楽-音楽ペア、60.22時間の曲の音楽編集のためのデータセットです。

・音楽キャプション + 音楽キャプション + MPT-7B + MUEdit の手順

デモを日本語に翻訳してます。原文は公式ページ参照。

テキストからの音楽生成と音楽理解に関するデモです。

テキストからの音楽生成と音楽編集に関するデモです。

画像からの音楽生成と音楽理解に関するデモです。

画像からの音楽生成と音楽編集に関するデモです。

動画からの音楽生成と音楽理解に関するデモです。

動画からの音楽生成と音楽編集に関するデモです。

音楽編集と音楽理解に関するデモです。

この記事が気に入ったらサポートをしてみませんか？