見出し画像

Riffusion によるテキストからの音楽生成を試す

Riffusion によるテキストからの音楽生成を試したのでまとめました。

1. Riffusion

「Riffusion」は、テキストから音楽を生成する音楽生成AIです。

「Stable Diffusion」をテキストからスペクトログラム (音楽の画像表現) を生成できるようにファインチューニングし、スペクトログラムから音楽を再生できるようにしています。

シードを変更することで、同じテキストからでも無限のバリエーションの音楽を生成できます。さらには、img2img、inpainting、negative prompt、interpolationなど、画像生成と同様の手法で音楽を編集することもできます。

2. Colabでの実行

Riffusion App」のページにColabが提供されているので、これを実行してみます。

(1) 「Riffusion App」のページで提供されているColabを開く。

(2) 「!nvidia-smi」「Clone the inference repo」「Install requirements」「Imports」「Define a predict function」の5つのセルを実行。
Riffusionがセットアップされます。

(3) 「Run with Colab interface」のセルで、プロンプトとネガティブプロンプトを入力して実行。
「output.wav」が出力されます。左端のフォルダアイコンでファイル一覧を表示してダウンロードすることができます。

3. プロンプトガイド

プロンプトガイドは、次のとおりです。

◎ シード画像
シード画像はBPMとプロンプトの全体的な雰囲気に影響します。与えられたシード画像には依然として大量の多様性が存在する可能性がありますが、効果は存在します。

◎ ノイズ除去
ノイズ除去が高いほど、結果はより創造的になりますが、シード画像との類似性は低くなります。デフォルトのノイズ除去は0.75で、ほとんどのプロンプトでビートを維持するのに適しています。

◎ プロンプト
プロンプトを提供するときは、創造性が重要です。お気に入りのスタイル、サックスやバイオリンなどの楽器、アラビア語やジャマイカなどの修飾子、ジャズやロックなどのジャンル、教会の鐘や雨のような音、または任意の組み合わせを試してみてください。 テキスト エンコーダは単語を類似のセマンティクスに関連付けることができるため、学習データに存在しない多くの単語に機能します。 プロンプトがシード画像とBPM に近いほど、より良い結果が得られます。

◎ プロンプトの重み付け
特定の単語を他の単語よりも強調するために、プロンプトでトークンに重み付けすることができます。単語を重み付けする書式例は (vocals:1.2) で、1.2 倍を適用します。 短縮形 (vocals) は 1.1倍上げる、 [vocals] は 1.1倍下げるを意味します

「Riffusion Wiki」には、プロンプトのアイディアが紹介されていて、参考になります。



この記事が気に入ったらサポートをしてみませんか?