Dance Diffusion のランダムオーディオ生成を試す

2022年11月5日 07:39

「Dance Diffusion」のランダムオーディオ生成を試したので、まとめました。

・diffusers 0.7.1

1. Dance Diffusion

「Dance Diffusion」は、「Harmonai」によって開発されたオーディオ生成のAIモデルです。「Harmonai」は、「Stability AI」内のミュージシャン向けのオープンソースなオーディオ生成ツールの開発を目的とするコミュニティになります。

現在は、以下の機能が提供されています。

・ランダムオーディオの生成
・1つのオーディオからの再生成 / スタイルの転送
・2つのオーディオ間の補完

「diffusers v0.7.0」でも「Dance Diffusion」による「ランダムオーディオ」生成が可能になりました。

2. Colabでの実行

「diffusers v0.7.0」版のColabでの実行手順は、次のとおりです。

(1) Colabで新規ノートブックを作成し、メニュー「編集 → ノートブックの設定で「GPU」を選択。

(2) diffusersのインストール。

# パッケージのインストール
!pip install --upgrade diffusers[torch] transformers scipy

(3) パイプラインの生成。

from diffusers import DiffusionPipeline

# パイプラインの生成
pipeline = DiffusionPipeline.from_pretrained("harmonai/maestro-150k")
pipeline = pipeline.to("cuda")

利用できるモデルは、HuggingFaceの以下のページで確認できます。

(4) オーディオの生成と保存。

import scipy
from scipy import io
from scipy.io import wavfile

# オーディオの生成
audio = pipeline(audio_length_in_s=20.0).audios[0]

# オーディオの保存
scipy.io.wavfile.write("maestro_test.wav", 44100, audio.transpose())

(5) 左端のフォルダアイコンのファイル一覧から、wavをダウンロードしてオーディオを確認。

diffusers 0.7.0のDance Diffusionのランダムオーディオ生成を試す。https://t.co/B561UCPtjf pic.twitter.com/zKOVp4H64v
— 布留川英一 / Hidekazu Furukawa (@npaka123) November 4, 2022

3. 関連

音楽版Stable Diffusion「Dance Diffusion」を手持ちの好きな音楽でファインチューニングするColab(日本語)を作ったので公開
※開発者の方と話をして教師データをチャンク分割するコードを追加済みhttps://t.co/d4PQnxZ3qp #stablediffusion #dancediffusion #music
— 2f6i (@2feet6inches) September 29, 2022

この記事が気に入ったらサポートをしてみませんか？