Google Colab で AudioLDM による音楽生成を試す

npaka

2023年2月4日 07:12

Google Colab で「AudioLDM」による音楽生成を試したのでまとめました。

1. AudioLDM

「AudioLDM」は、テキストからサウンドエフェクト、人間の音声、音楽を生成するAIモデルです。

2. Colabでの実行

Google Colabでのセットアップの手順は、次のとおりです。

(1) 新規のColabのノートブックを開き、メニュー「編集 → ノートブックの設定」で「GPU」を選択。

(2) パッケージのインストール。

# パッケージのインストール
!git clone https://github.com/haoheliu/AudioLDM.git
%cd AudioLDM
!pip install -e .

(3) ウェイトのダウンロード。

# ウェイトのダウンロード
!mkdir ckpt
!wget https://zenodo.org/record/7600541/files/audioldm-s-full?download=1 -O ckpt/audioldm-s-full.ckpt

(4) 推論の実行。
サウンドエフェクトを生成します。

# 推論の実行
!python scripts/text2sound.py -t "2 cats are fighting"

#AudioLDM を試す。 (画像は #memeplex )
"2 cats are fighting"https://t.co/RtxwMBVgDB pic.twitter.com/UASzthDFRj
— 布留川英一 / Hidekazu Furukawa (@npaka123) February 3, 2023

左端のフォルダアイコンのファイル一覧の「AudioLDM/output」からwavファイルをダウンロードできます。

text2sound.pyのパラメータは、次のとおりです。

-h, --help : ヘルプ
-t TEXT, --text TEXT : プロンプト
-s SAVE_PATH, --save_path SAVE_PATH : 出力フォルダのパス
-ckpt CKPT_PATH, --ckpt_path CKPT_PATH : チェックポイントのパス
-b BATCHSIZE, --batchsize BATCHSIZE : バッチサイズ
-gs GUIDANCE_SCALE, --guidance_scale GUIDANCE_SCALE : Guidance Scale (大:品質向上、小:多様性向上)
-dur DURATION, --duration DURATION : 時間
-n N_CANDIDATE_GEN_PER_TEXT, --n_candidate_gen_per_text N_CANDIDATE_GEN_PER_TEXT : 自動品質管理 (大:品質向上、小:計算軽)
--seed SEED : シード

(5) 推論の実行。
音楽を生成します。

# 推論の実行
!python scripts/text2sound.py -t "music made by 8bit NES"

#AudioLDM を試す。 (画像は #memeplex )
"music made by 8bit NES"https://t.co/Hfob5iE6cb pic.twitter.com/mlRCK4PhvP
— 布留川英一 / Hidekazu Furukawa (@npaka123) February 3, 2023

この記事が気に入ったらサポートをしてみませんか？