見出し画像

ステレオ音声生成 MusicGen-stereo を試す

meta社からテキストの説明や音声プロンプトに基づいて高品質の音楽サンプルを生成できるテキスト音楽モデルMusicGen のステレオのモデルセットがリリースされていましたので、さっそく試してみました。

モデルはモノラルと同様、musicgen-stereo-large、musicgen-stereo-midium、musicgen-stereo-largeの3種類と、メロディーを入力して生成するmusicgen-stereo-melody、musicgen-stereo-melodyの2種類が公開されています。

今回は手軽にmusicgen-stereo-mediumモデルを、google colabの無料GPU(T4)で動かしてみます。

インストールほか準備

!python3 -m pip install -U git+https://github.com/facebookresearch/audiocraft#egg=audiocraft
# !python3 -m pip install -U audiocraft
from audiocraft.models import musicgen
from audiocraft.utils.notebook import display_audio
import torch

実行!

model = musicgen.MusicGen.get_pretrained('facebook/musicgen-stereo-medium')
model.set_generation_params(duration=16)

プロンプトはChatGPTに生成してもらいました。

res = model.generate([
    'jazz fusion with spicy saxophone improvisations',
    'traditional Indian classical with sitar solos and tabla beats',
    '90s inspired hiphop with strong snares and groovy bass line',
    'orchestral symphony with dramatic crescendos',
    ], 
    progress=True)
display_audio(res, 32000)
GPUメモリ消費は12GB程度

生成例

from audiocraft.data.audio import audio_write

for idx, one_wav in enumerate(res):
    audio_write(f'{idx}', one_wav.cpu(), model.sample_rate, strategy="loudness")

ステレオ音声になることで、かなり臨場感が増した気がします。ちょっとしたBGMとか劇伴であればそのまま使えるかも。

最後までお読みいただきありがとうございました。

この記事が気に入ったらサポートをしてみませんか?