最近話題になった 音楽生成AI まとめ
最近話題になった「音楽生成AI」をまとめました。
1. AudioGen
テキストからオーディオを生成するAIモデルです。「風が吹く中で口笛をする音」や 「大勢の歓声の中で話す男性の声」といったテキストから、それらしい音を生成してくれます。
現在のところ、モデルやAPIは提供されていません。
2. Mubert
テキストからBGMを生成するAPIです。テキストをタグに変換して、そのタグでBGMを生成する仕組みになっています。
3. Musika
任意の音楽を学習させることで、それっぽい新曲を生成できるようになります。
4. Dance Diffusion
「Dance Diffusion」は、「Harmonai」によって開発されたオーディオ生成のAIモデルです。現在は、以下の機能が提供されており、
diffusersではランダムオーディオ生成のみサポートしています。
5. Audio Diffusion
「Audio Diffusion」は、diffusionモデルでメルスペクトログラム画像を生成することで、音楽生成を行うAIモデルです。
diffusersでき、Colabでは以下のサンプルが提供されています。
6. Riffusion
テキストから音楽を生成するAIモデルです。「Stable Diffusion」にスペクトログラム画像を追加学習させ、テキストからスペクトログラムを生成し、その画像から音楽を再生しています。
7. Pop2Piano
オーディオ(wav/mp3)からピアノカバー(MIDI)に変換するAIモデルです。
8. AudioLDM
「AudioLDM」は、テキストからサウンドエフェクト、人間の音声、音楽を生成するAIモデルです。