ステレオ音声生成 MusicGen-stereo を試す

2023年11月10日 12:13

meta社からテキストの説明や音声プロンプトに基づいて高品質の音楽サンプルを生成できるテキスト音楽モデルMusicGen のステレオのモデルセットがリリースされていましたので、さっそく試してみました。

モデルはモノラルと同様、musicgen-stereo-large、musicgen-stereo-midium、musicgen-stereo-largeの３種類と、メロディーを入力して生成するmusicgen-stereo-melody、musicgen-stereo-melodyの２種類が公開されています。

今回は手軽にmusicgen-stereo-mediumモデルを、google colabの無料GPU(T4)で動かしてみます。

インストールほか準備

!python3 -m pip install -U git+https://github.com/facebookresearch/audiocraft#egg=audiocraft
# !python3 -m pip install -U audiocraft

from audiocraft.models import musicgen
from audiocraft.utils.notebook import display_audio
import torch

実行！

model = musicgen.MusicGen.get_pretrained('facebook/musicgen-stereo-medium')
model.set_generation_params(duration=16)

プロンプトはChatGPTに生成してもらいました。

res = model.generate([
    'jazz fusion with spicy saxophone improvisations',
    'traditional Indian classical with sitar solos and tabla beats',
    '90s inspired hiphop with strong snares and groovy bass line',
    'orchestral symphony with dramatic crescendos',
    ], 
    progress=True)
display_audio(res, 32000)

生成例

from audiocraft.data.audio import audio_write

for idx, one_wav in enumerate(res):
    audio_write(f'{idx}', one_wav.cpu(), model.sample_rate, strategy="loudness")

ステレオ音声になることで、かなり臨場感が増した気がします。ちょっとしたBGMとか劇伴であればそのまま使えるかも。

最後までお読みいただきありがとうございました。

この記事が気に入ったらサポートをしてみませんか？