楽曲生成AI「Suno AI」を使ってPodcast用のBGMをつくる

2024年1月16日 13:14

・はじめに

　長くなってしまったので、できた曲だけ聞きたい人は「できたもの」までジャンプしてください。歌声入りの楽曲生成が強みの一つであるSunoで歌声なしのBGMを作ろうという趣旨の記事です。

追記：この記事はSuno AIのサービスについても、使いこなしについても古くなっています。概要は問題ありませんが、作例はインスト曲では[楽曲生成AI「Suno AI」がアップデート！V3アルファとV2の作例を比べてみる]を、歌詞ありの曲では[更に進化した楽曲生成AI「Suno AI」v3.5は複雑な歌詞でも歌えるか]を参照して下さい。以下にリンクを載せておきます。

・Suno AIについて

　Suno AIは、テキスト入力により歌声入りの楽曲を生成できる自動作曲AIサービスです。Googleによる音声認識モデル「Chirp v2」及びSuno自身が公開している「Bark」(テキストから話し声などの音声を生成するモデル)が組み合わさって技術的なベースになっていると思われます。ChirpとBarkは共に多言語対応しているため、Suno AIの楽曲生成においても日本語の歌詞などが使用できます。

　無料プランでは毎日50クレジットまで回復し、一度に10クレジットを消費して2曲生成されるので、1日あたり最大10曲を生成できます。有料プランでは、生成できる楽曲数が増えるとともに、生成した曲の所有権を得るので商用利用できるようになります。

　生成時に曲の説明だけを入力するモードと、歌詞・曲のスタイル・タイトルをそれぞれ入力するカスタムモードがあり、前者では歌詞もランダム生成されます。
　また、Microsoft Copilotとの連携も始まり、楽曲生成の裾野を広げています。

　Sunoについては、テクノエッジの松尾公也氏が様々な切り口で記事を書いていらっしゃるので、参考としてリンクを載せておきます。

・今回目指すもの

　さて、Suno AIを利用して厨二病時代に書き溜めた歌詞にメロディをつけるのも良いのですが、Podcastをしている身としては、そのBGM用途に活用したい気持ちがあります。現在Podcastに使用させていただいている商用フリー音源およびクリエイティブ・コモンズライセンスの音源を選ぶために、大げさでなく数百曲の音源を聞いたので、その労力が軽くなったり、よりイメージに近い楽曲が生成できたりする事には大きな意味があります。

　今回はポッドキャストのBGMとして使用したいので、生成したい楽曲の条件としては、

ある程度テンポの良いもの
歌は無しか目立たないもの
曲としては長尺（8〜10分程度）
↑その上で曲調に展開あると嬉しい

となります。

・やってみる

　今回は月10ドル（年間支払いだと月8ドル）のProプランに申し込んでみます。左カラムのSubscriptionからmonthly BillingのPro Planを選択。実はここだけスマホから支払いをしたんですがApple Payが使えて楽でした。Proプランがアクティブになり、2,500クレジットが付与されました。

・プロンプト

　クレジットががっつり減っていることから分かるように、試行錯誤しながら生成を繰り返してみました。今のところ以下のようなプロンプトを入力してみています。

Lyrics:
[Light Drums Intro]

[melodic organ Verse]
(...)

[melodic organ Verse2]
(...)

[Catchy Chorus]
(...)

Style of Music:
Motown-style R&B, organ, wood bass, Allegro, catchy, groovy, retro

Title:
Sunnyside and inside

https://app.suno.ai/song/141b2a39-9523-4dd0-b5b0-f6f3a80ccac0

　このモデルはアーティスト名を認識しないとヘルプに書いてあるのですが、Motown-styleはどうなんでしょうか。ちょっと古さが出ればいいなと思って入れています。
　歌詞の部分で[ ]で囲われているのはメタタグと呼ばれているもので、舞台の台本などで言うト書きのような働きをします。歌詞を自動生成した場合にもデフォルトで[Verse]と[Chorus]というメタタグが付きますが、さらに説明や形容詞を加えても効果がありそうです。歌詞に影響なく指示が増やせるのでかなり有用ですね。メタタグについては以下のリンクに説明があります。　
　また、Discord(https://suno.ai/discord)を参考にしたりしています。

・曲の延長

「Continue From This Clip」と「Get Whole Song」

　はじめに生成される音源は最大で1分20秒です。それ以上の長さの曲にするには、「Continue From This Clip」から最大60秒ずつ延長します。
このタイミングでも曲のスタイルと歌詞のプロンプトを入力する事になりますが、あまり変えすぎると曲としての一貫性が弱くなってしまいます。スタイルセクションを空白にすると、元のスタイルに合わせようとするそうです。

　これを何度か繰り返した後、「Get Whole Song」を選択すると、そのチェーンのすべてのクリップが1つの曲としてつなぎ合わされます。

・できたもの

　以下に、今回できたものの内3つをYouTubeにアップロードしました。これはSunoからMP4でダウンロードしたものを編集せずにそのままアップしたものです。

　背景のアートワークが切り替わるところまでが一回の生成で、それに対応した歌詞のプロンプトが真ん中に表示されています。自然な部分と気持ち悪い部分とあるので、カット編集するだけでももうちょっと良くなりそうですが、それにしてもテキスト入力だけで作られた曲とは思えないですね。

　プロンプトを作るのに必要な音楽的な語彙の無さに苦しみながらでしたが、有効なプロンプトの作り方などは画像生成AIと通じる所な気がします。全体的には形容詞が強い中、[melodic Development]というメタタグが便利で1、2度延長したあたりで入れるといい感じに展開をしてくれて使いやすかったです。また、小学校の頃の音楽の授業で習ったアンダンテ「ゆっくりと歩くような速さで」などのテンポに関する用語がこんなに使いやすいとはこれまで思ってもみませんでした。
　
　もっと長い曲を作ってみたかったのですが、60秒ごとに延長していくという形式の特性上、Part4などはPart1から離れすぎて曲としての一貫性が保てなくなってしまいます。現状では5分ぐらいの曲を良きところでループさせた方が良さそうです。

　ちなみに、画像生成AIの場合は一目見た瞬間に生成された画像の良し悪しが判断出来るのですが、1分間の楽曲では1分間聞かなければわからないのが時間を吸われるポイントでした。

この記事が気に入ったらサポートをしてみませんか？