見出し画像

Dance Diffusion のランダムオーディオ生成を試す

「Dance Diffusion」のランダムオーディオ生成を試したので、まとめました。

・diffusers 0.7.1

1. Dance Diffusion

「Dance Diffusion」は、「Harmonai」によって開発されたオーディオ生成のAIモデルです。「Harmonai」は、「Stability AI」内のミュージシャン向けのオープンソースなオーディオ生成ツールの開発を目的とするコミュニティになります。

現在は、以下の機能が提供されています。

・ランダムオーディオの生成
・1つのオーディオからの再生成 / スタイルの転送
・2つのオーディオ間の補完

「diffusers v0.7.0」でも「Dance Diffusion」による「ランダムオーディオ」生成が可能になりました。

2. Colabでの実行

「diffusers v0.7.0」版のColabでの実行手順は、次のとおりです。

(1) Colabで新規ノートブックを作成し、メニュー「編集 → ノートブックの設定で「GPU」を選択。

(2) diffusersのインストール。

# パッケージのインストール
!pip install --upgrade diffusers[torch] transformers scipy

(3) パイプラインの生成。

from diffusers import DiffusionPipeline

# パイプラインの生成
pipeline = DiffusionPipeline.from_pretrained("harmonai/maestro-150k")
pipeline = pipeline.to("cuda")

利用できるモデルは、HuggingFaceの以下のページで確認できます。

(4) オーディオの生成と保存。

import scipy
from scipy import io
from scipy.io import wavfile

# オーディオの生成
audio = pipeline(audio_length_in_s=20.0).audios[0]

# オーディオの保存
scipy.io.wavfile.write("maestro_test.wav", 44100, audio.transpose())

(5) 左端のフォルダアイコンのファイル一覧から、wavをダウンロードしてオーディオを確認。

3. 関連



この記事が気に入ったらサポートをしてみませんか?