見出し画像

【音楽生成AI】長尺の楽曲が作れるStable Audio 2.0を試してみた!

👋皆さんこんにちは!
今年に入ってから動画生成AIやLLMが更に盛り上がっていますが、実は音楽生成AIも大きな進化を遂げていて、盛り上がりを見せています🎶

今回は、画像生成AIの「Stable Diffusion」でお馴染みのStability AIによる音楽生成AI「Stable Audio」の最新版2.0について実際に使ってみた感想をご紹介したいと思います!🎹


1.どんな音楽が作れる?

まず、Stable Audio 2.0で音楽を作ってみました。

[ジャンル]
エピック+ロック

[プロンプト]
Post-Rock, Guitars, Drum Kit, Bass, Strings, Euphoric, Up-Lifting, Moody, Flowing, Raw, Epic, Sentimental, 125 BPM

エピックらしく壮大な感じもありつつ、ギターやドラムなどのロック要素もありいい感じです。
さらに、3分という尺の中にイントロから徐々に盛り上がって最後はアウトロでしぼんでいくような展開がバランスよく含まれていますね!

2.Stable Audioについて

Stable Audio 2.0は、1つの自然言語プロンプトから、44.1KHzステレオで最大3分の一貫した構造を持つ高品質のフルトラックを生成可能にするモデルです。
テキストからオーディオへ、そしてオーディオからオーディオへの変換機能も備えています。ユーザーはオーディオサンプルをアップロードし、自然言語プロンプトを使用してこれらのサンプルを様々なサウンドに変換することができます。
サウンドエフェクト(SE)の生成とスタイルの転送も拡張され、アーティストやミュージシャンに更なる柔軟性とコントロールを提供し、クリエイティブプロセスを向上させます。

3.生成までのステップ

3-1.公式サイトにアクセスして登録

https://stableaudio.com/

Googleアカウントかメールアドレスで登録できます。

3-2.プロンプトを入力する

これが生成画面です。一番左上のPrompt欄に音楽生成用プロンプトを入力します。今回はテキストから音楽を生成するステップについてご説明します。

音楽生成用GPTsに作ってもらった遊園地の列待ちにぴったりのカントリーポップというイメージのプロンプトです。
Country Pop, Acoustic Guitar, Banjo, Fiddle, Drum Kit, Upbeat Rhythms, Catchy Melodies, Joyful, Uplifting, Playful, 140 BPM, Amusement Park, Roller Coaster Queue

3-3.モデルを選択する

音楽生成に使用するモデルですが、基本的に最新のものが最初から設定されているので特別な理由がなければ操作は不要です。

3-4.生成設定を選択する
生成に使う設定は以下の通りです。(無料版はNumber of Resultsは利用できません)

  • Duration
    音楽の長さを指定します。3分にしてみます。

  • Number of Results
    1回生成ボタンを押したときに同時にいくつ生成されるか指定します

  • Steps
    ステップ数が多いほど処理能力が高くなります。 公式ガイドでは50 がスイートスポットとのことですが、100がデフォルトに設定されてあります。今回は100で生成してみます。

  • Seed
    シード値です。ここの値を変えることでプロンプトが同じでも別の曲が生成されます。

  • Prompt Strength
    プロンプトの反映強度を指定します。デフォルトは80%です。
    今回は65%にしてみます。

3-5.生成

Generateボタンを押して、1分ぐらい待つと楽曲が生成されます。
遊園地の列待ちにぴったりのカントリーポップになっているでしょうか。

結構、それっぽいですね!💡

遊園地のジェットコースターの列待ちであれば、イントロやサビ、アウトロといった展開がしっかりあるというよりも、平坦だけど常にテンション高めの進行の方がイメージに合うと思いますので、プロンプト通りの楽曲ができたと思います。

おまけですが、ボーカル指定入りにしてみるとこんな感じになりました。
ちょっと何言ってるかまでは分からないですが、雰囲気は伝わってきます🤣

3-6.Audio To Audioについて
画像生成で言うところのimage To imageみたいに音楽をインプットして、参照することができます。

無料版だと30秒にカットされてしまいますが、有料版なら3分間フルで参照可能です。参照する強さも調整できます。

4.プロンプトライブラリについて

私のように音楽の専門知識が無い人間にとって、Suno AIなどの楽曲が作れるAIツールを使っていて最初につまづく点として、そもそも「どんなプロンプト書いたらいいのかよく分からん」というのがあります。

Stable Audioでは生成画面でプロンプト集(ライブラリ)があり、どんなジャンルの時はどれぐらいのプロンプトを書くと良いかすぐに分かるし、それで生成することもできるので便利です📖

プロンプトライブラリには18種類の音楽ジャンルに対するプロンプトがあります

3-1.音楽生成用GPTsとClaude3

私がプロンプト集を見て学習するのはすごく時間がかかりそうだったので、LLMのClaude3とChatGPTにプロンプトを学習させてClaude用システムプロンプトと、GPTsを作成してみましたのでよければご利用ください🙏

音楽のジャンルとかをふんわり指定すると、そのままプロンプト化してくれたり、プロンプトを作るのに必要な条件を聞いてくれます。


🤖Claude3 opus用のシステムプロンプト

基本、このJSONファイルをチャット欄に貼るだけでOKですが、詳細な使い方は以下の記事[やり方]欄をご参照ください。


🎧ChatGPT用のMyGPTs

ChatGPT PLUS以上のアカウントで利用できます。


5.SUNO AIとの比較

Stable Audio 2.0の主要な競合AIに、SOUNDRAWやSUNO AIがあります。
現時点でのSUNO AIとの性能比較は以下の通りです。

5-1.音質:

  • Stable Audio 2.0: 44.1kHzの高音質。リアルな楽器サウンドと空間表現。

  • SUNO AI v3.0: 48kHzでやや上回る。

5-2.生成される音楽の構造性:

  • Stable Audio 2.0: イントロ、展開、アウトロを備えた最長3分の高い構造性を持つ楽曲が生成可能。

  • SUNO AI v3.0: 最長120秒の構造的な楽曲生成が可能。Stable Audioと同等の構造性。

5-3.その他の優れた点

  • Stable Audio 2.0: 非常にシンプルで直感的。テキストやオーディオを入力するだけ。

  • SUNO AI v3.0: 歌詞のインプットができ、ボーカル入りの楽曲に対応している。

総合的に、両者は甲乙つけがたいほど高い水準にあります。SUNO AIはボーカル入りの楽曲が利用できることが大きな利点で、音質でもわずかにStable Audioを上回っています。
一方、Stable Audio 2.0は使いやすさと生成される楽曲の長さで優れています。ユースケースに応じてツールを選択することが重要でしょう。

ただ、透明性については両者に大きな違いがあります。
SUNO AIは優れた楽曲を提供しますが、コードや学習内容が公開されていないため、その内容は不明です。

一方、Stable Audioは、AudioSparx音楽ライブラリからライセンスされたデータセットのみでトレーニングされており、オプトアウトのリクエスト(情報開示)にも対応しています。
さらに、クリエイターへの公正な報酬も保証されています。

この点は、AIの倫理的な活用と、クリエイターの権利保護の観点から非常に重要です。Stable Audioは、高品質な音楽生成を実現しながら、透明性と公正性も担保しているところが評価されるべきポイントだと思います。

最近登場した音楽生成AIのUdioについても記事をまとめました


6.価格について

ログインすればある程度無料で使うことができ、商用利用はProプラン以上のクリエイターラインセンスが必要になります。

現状、有料プラン間での差については以下の2点です。

  • 音楽を作成するための付与コスト量(1曲で2消費)

  • 楽曲のアップロード(音楽から音楽を作成する場合)の時間の長さと切り抜きの長さ

切り抜きというのは、参照したい音楽をアップロードした際に有効な尺のことです。
つまり無料プランでは、似たような楽曲を作るときに1分の参考とする音楽をアップロードしても最初の30秒の部分しか使われないということです。
有料プランなら、生成上限の3分まで参照してくれます。

7.まとめ

今回は、Stability AI社の音楽生成AI「Stable Audio 2.0」についての概要や、利用方法、実際に使った感想などをご紹介しました。

改めて、すでに3分という市場の商用楽曲と同等のスケールで高品質な音楽が作れるという時代になっていることに驚きました。
また、音楽を生業にするアーティストだけでなく動画編集者やゲーム、Webサービスなどのコンテンツクリエイターにも大きな影響を与えそうですね。

音楽生成AIの発展において、技術的な進歩だけでなく、倫理的な配慮も欠かせません。Stable Audioは、その両面で業界をリードしていると感じました。クリエイターにとって安心して使えるツールであり、AIと人間が共創する新しい音楽の世界を切り拓いていく存在として大いに期待されますね!

最後まで読んで頂きありがとうございました!
ぜひご感想などをコメントやスキなどで教えていただけると嬉しいです!

■AIBridge Labについて


AIBridge Lab(エーアイブリッジ ラボ)では生成AI全般の利用方法に関しての情報を発信しています。同じように生成AIをビジネスや創作に役立てたいという方と積極的に繋がりたいと考えていますので、ぜひフォローやコメントなどを頂けると嬉しいです!

ご依頼等は以下のメールアドレスまでお気軽にお問い合わせください。
ai_business@doerstokyo.jp

AIBridge Lab こば


この記事が参加している募集

GPTsつくってみた

皆さまの温かいサポートのおかげで、活動を続けることができています。もしよろしければ、引き続き支援をお願いできますと幸いです。より質の高い記事投稿に励みます!