Dance Diffusion のランダムオーディオ生成を試す
「Dance Diffusion」のランダムオーディオ生成を試したので、まとめました。
1. Dance Diffusion
「Dance Diffusion」は、「Harmonai」によって開発されたオーディオ生成のAIモデルです。「Harmonai」は、「Stability AI」内のミュージシャン向けのオープンソースなオーディオ生成ツールの開発を目的とするコミュニティになります。
現在は、以下の機能が提供されています。
「diffusers v0.7.0」でも「Dance Diffusion」による「ランダムオーディオ」生成が可能になりました。
2. Colabでの実行
「diffusers v0.7.0」版のColabでの実行手順は、次のとおりです。
(1) Colabで新規ノートブックを作成し、メニュー「編集 → ノートブックの設定で「GPU」を選択。
(2) diffusersのインストール。
# パッケージのインストール
!pip install --upgrade diffusers[torch] transformers scipy
(3) パイプラインの生成。
from diffusers import DiffusionPipeline
# パイプラインの生成
pipeline = DiffusionPipeline.from_pretrained("harmonai/maestro-150k")
pipeline = pipeline.to("cuda")
利用できるモデルは、HuggingFaceの以下のページで確認できます。
(4) オーディオの生成と保存。
import scipy
from scipy import io
from scipy.io import wavfile
# オーディオの生成
audio = pipeline(audio_length_in_s=20.0).audios[0]
# オーディオの保存
scipy.io.wavfile.write("maestro_test.wav", 44100, audio.transpose())
(5) 左端のフォルダアイコンのファイル一覧から、wavをダウンロードしてオーディオを確認。
3. 関連
この記事が気に入ったらサポートをしてみませんか?