見出し画像

最近話題になった 音楽生成AI まとめ

最近話題になった「音楽生成AI」をまとめました。

1. AudioGen

テキストからオーディオを生成するAIモデルです。「風が吹く中で口笛をする音」や 「大勢の歓声の中で話す男性の声」といったテキストから、それらしい音を生成してくれます。
現在のところ、モデルやAPIは提供されていません。

2. Mubert

テキストからBGMを生成するAPIです。テキストをタグに変換して、そのタグでBGMを生成する仕組みになっています。

3. Musika

任意の音楽を学習させることで、それっぽい新曲を生成できるようになります。

4. Dance Diffusion

「Dance Diffusion」は、「Harmonai」によって開発されたオーディオ生成のAIモデルです。現在は、以下の機能が提供されており、

・ランダムオーディオの生成
・1つのオーディオからの再生成 / スタイルの転送
・2つのオーディオ間の補完


diffusersではランダムオーディオ生成のみサポートしています。

5. Audio Diffusion

「Audio Diffusion」は、diffusionモデルでメルスペクトログラム画像を生成することで、音楽生成を行うAIモデルです。
diffusersでき、Colabでは以下のサンプルが提供されています。

・ランダムオーディオ生成
・ループ
・バリエーション
・アウトペインティング
・インペインティング
・リミックス (Style Transfer)

6. Riffusion

テキストから音楽を生成するAIモデルです。「Stable Diffusion」にスペクトログラム画像を追加学習させ、テキストからスペクトログラムを生成し、その画像から音楽を再生しています。

7. Pop2Piano

オーディオ(wav/mp3)からピアノカバー(MIDI)に変換するAIモデルです。

8. AudioLDM

「AudioLDM」は、テキストからサウンドエフェクト、人間の音声、音楽を生成するAIモデルです。

関連



この記事が気に入ったらサポートをしてみませんか?