SunoAIで音楽生成して遊ぼう🎧（作例あり）

2024年3月24日 20:35

AI作曲サービスSunoがV2→V3にアップデートしました。
性能の向上を体感するために数十曲生成してみたので、ここにレポートを記します。

Sunoに入力できる情報はそれほど多くありません。

ボーカル入りの楽曲を生成したい場合に歌詞を入力する「Lyrics」と、音楽のスタイルを指示する「Style of Music」、曲のタイトルを入力する「Title」ぐらいです。
最新のv3と、以前のv2を選ぶことができますが、ここではv3のみを使用しています。

少ないコントロールで、簡単に高品質な音楽を生成できるのがSunoの強みと言えます。
反対に、細かくコントロールしたい人には満足が行かないかもしれません。

まだ使ったことがない方向けのガイドは、記事末尾の「クイックスタートガイド」の見出しまで飛んでください。

歌詞から連想されるスタイルの音楽を生成する

ボーカル入りの楽曲を生成するためには、歌詞を入力する必要があります。
自分で歌詞を考えられる人は、自分の歌詞を入力してみましょう。

Sunoは、歌詞っぽくない日本語も、無理やり歌にしてくれるので、文章が書ける人なら、なんでも入力してみてよいと思います。

ChatGPTに歌詞を考えてもらう

考えるのがめんどくさいよ、という人は、ChatGPTに考えてもらいましょう。
雑に指示しても、ちゃんと歌詞っぽいものを出力してくれます。

下記のキーワードで、ポップスの歌詞を提案してください。

生成AI、音楽を作る、クリエイティブの民主化、様々な音楽ジャンル

作例：Afro 啄木;

私は、好きな文学作品を歌詞にしてみます。

一悪の砂 / 石川啄木
https://www.aozora.gr.jp/cards/000153/files/816_15786.html

青空文庫

「Style of Music」には、下記を入力しました。

HipHop, Afrobeat, Jazz funk, vinyl records, mix tapes

「Style of Music」を考えるときは、どんな音楽を作りたいかを考えます。

石川啄木の詩が音楽になるなら、自分のイメージは、メロディアスに歌い上げるというより、ジル・スコットヘロンのようなポエトリーリーディングです。

現代的なサウンドというよりは、古い生演奏の泥臭い楽曲をサンプリングして、現代的に再構築されたサウンドが好ましいと思いました。

そこで「Hiphop」と「Jazz Funk」というキーワードを入れてみました。
古いレコードをサンプリングしたサウンドと、そのサンプリング元のレコードをイメージしています。
併せて、「vinyl records」と「mix tapes」というキーワードも入れました。

野生的なドラムと、生演奏による泥臭いグルーブ、具体的にはフェラ・クティのような要素を入れたかったので、Googleで「フェラ・クティ　ジャンル」で検索して出てきた「Afrobeat」というキーワードを入れました。

何回か生成して、イメージにピッタリの音楽を生成することができました！

ブラックスプロイテーション映画風のストリングスとブラスと、押し出しの効いた大人数のコーラスが気に入っています。

私のお気に入りの「友がみなわれよりえらく見ゆる日よ花を買ひ来て妻としたしむ」という詩が目立っていて嬉しいです。

Style of MusicをChatGPTに提案してもらう

音楽のスタイルをどんな風に表現したらいいかわからない場合、「アーティスト名＋ジャンル」で検索したり、ChatGPTに聞いてみると見つけることができます。

歌詞とは異なるイメージを組み合わせて生成してみる

次に、歌詞のイメージとは異なるスタイルを組み合わせて、気に入った音楽が生成されるか試してみましょう。

歌詞は、下記の作品を用います。

智恵子抄 / 高村光太郎
https://www.aozora.gr.jp/cards/001168/files/46669_25695.html

青空文庫

「智恵子抄」の「あどけない話」という詩を引用します。
作者の妻である智恵子さんが、東京の空を見て、これは私の空ではない。と嘆く物悲しい雰囲気を持った詩です。

この詩を用いて、切ない雰囲気のあるアッパーな曲を生成してみます。

Style of Musicには下記を入力しました。

High speed vocaloid tune, filter house, upbeat, Idol

Vocaloid風のボーカルとFilter Houseの雰囲気の組み合わせで、マイナーコードの四つ打ちで、VaporWave的なTokyoのイメージを期待しています。
Idolというキーワードが上手く効いたかはちょっとわかりません。

作例：Adokenai ちえこ;

こちらも何度かトライして、イメージ通りの楽曲を生成することができました！

「あどけない空の話である」という一説のリフレインがエモくて気に入っています。

偶発性を楽しむ

Style of Musicで意図したものと全然違う雰囲気の曲が生成されることもあります。

Memphis soul, kecak, Vinyl records, mix tapes

歌詞には般若心経の日本語読みを用いました。
お今日は歌みたいなものですが、平坦な朗読というより、抑揚とリズムがあるようなアレンジを期待して、インドネシアの民族音楽であるkecak（ケチャ）というキーワードを入れています。

Memphis soulというキーワードは、映画Wattstaxで、観客たちが音楽に併せて思い思いに踊っている雰囲気をイメージしました。

結果的には、Vinyl recordsとmix tapesというキーワードが強く効いたのか、民族音楽感はほぼ無く、骨太なHiphopになりました。

作例：ぎゃーてーぎゃーてー;

ドラムとベースのみのリズムトラックの上に、ラップっぽい般若心経が乗っているかっこいいトラックになりました。
後半、キリスト教風のコーラスみたいになるところも、ブラックミュージック感があって気に入っています。

うまくいかなかった例

何度トライしても満足いかなかった例もあります。

作例：Gekioko Romani; Hashire Melos

下記の楽曲は、太宰治の「走れメロス」を歌詞に用いました。

Style of Musicには、下記を入力しました。

gypsy brass, Romani music, Folk music, DJ mix, mix tape

出だしのテーマ部分はかっこいいのですが、曲が進行すると、曲がどんどん平坦になっていき、いつの間にかジプシーブラス感がほとんど感じられなくなってしまっています。

また、歌詞の問題もあります。

走れメロスには、「メロスは激怒した」「メロスは政治がわからぬ」「呆れた王だ、生かしておけぬ」など、たくさんのパンチラインが含まれています。
これらを効果的に強調する方法がわかりませんでした。

また、原文そのままでは歌詞としては冗長なのか、抑揚のない歌唱になってしまいました。
さらに、歌詞を読み飛ばしたり、意図せず繰り返したりしてしまっています。

歌詞については、内容をちゃんと読んでくれることよりも、印象的なフレーズのリフレインや、言葉のリズムを重視した方がよさそうです。
これまでの例では、比較的短い文書を用いていたので、この問題が起きなかったのだと思います。

異なる音楽ジャンルを組み合わせる

SunoのAIが、Style of Musicの入力をどのように解釈しているのか、正確にはわからないのですが、画像生成AIでのプロンプト入力のように、一部が抜け落ちることがあるものの、入力をベクトル化して持っている音楽データのベクトルの中で、近しいものを探索しているのだと思います。

であれば、普通組み合わせないようなキーワードを放り込んでも、なんとかキーワード同士の抽象的な解釈を行って、それらしい音楽を生成するのではないかと考えて、Style of Musicにいろいろな音楽ジャンルを放り込んでみました。

Krautrock, dubstep, death metal, high speed vocaloid song, goa trance

Krautrock（クラウトロック）というのは、昔のドイツで生まれた音楽ジャンルで、サイケデリックロックの影響を受けた実験的な音楽です。
サイケデリック・ロックやプログレッシブ・ロックの文脈で紹介されることが多いように思います。
代表的なアーティストには、ノイ！、カン、グル・グルなどがいます。

他に、ダブステップ、デスメタル、Vocaloid、ゴア・トランスというキーワードを入れました。

歌詞には、太宰治の「人間失格」を用いました。
先の「走れメロス」での反省から、原文そのまま用いるのではなく、印象的かつ、口に出して気持ちのいいフレーズを抜き出しました。

人間失格 / 太宰治
https://www.aozora.gr.jp/cards/000035/files/301_14912.html

はじの多いしょうがいを送ってきました。
自分には、人間の生活というものが、
けんとうつかないのです。

####

自分は、空腹という事を知りませんでした。
自分には空腹という感覚はどんなものだか、
さっぱりわからなかったのです。

めしを食べなければ死ぬ、という言葉は、
自分の耳には、ただイヤなおどかしとしか
聞こえませんでした。

####

つまり自分には、人間のいとなみというものが
いまだに何もわかっていない、
という事になりそうです。
自分のこうふくのがいねんと、
よのすべての人たちの
こうふくのがいねんとが、
まるで食いちがっているような不安、

自分はその不安のために
よなよな、
てんてんし、
しんぎんし、
発狂しかけた事さえあります。

自分は、いったいこうふくなのでしょうか。

####

つまり、わからないのです。
りんじんの苦しみのせいしつ、
ていどが、
まるでけんとうつかないのです。

考えれば考えるほど、
自分には、わからなくなり、
自分ひとりまったく
変っているような、
不安と恐怖に
襲われるばかりなのです。

###

自分はりんじんと、
ほとんど会話が出来ません。
何を、どう言ったらいいのか、
わからないのです。
そこで考え出したのは、
どうけでした。

青空文庫

Sunoは多言語を理解し、日本語の読解能力もかなり高いですが、難しい感じ、文学で用いられる特殊な送り仮名や読み方は読み違えてしまうことが多いので、ひらがなに直しています。

「####」は、なんとなくここが区切りですよ、ということを教えるために入れているのですが、Sunoが独自に区切ったりするので、効果があるのかは未知数です。

作例：ニンゲン Ineligible;　

クラウトロック、ダブステップ、デスメタル、ゴア・トランス、どれでもあってどれでも無いような雰囲気と、歌詞のイメージが合致した曲になって嬉しいです。

まとめ

SunoAIの難しさ

頭の中にイメージしている楽曲を生成したい場合、その音楽のスタイルを言語化する必要があります。
ジャンルや使用楽器は比較的言語化しやすいですが、たとえばピアノを使っているが、曲調は激しい音楽にしたい、という希望がある場合、pianoと入力しただけでは、しっとりした曲になってしまう可能性があります。

イメージしている音楽をテキストで表現する、あるいは、イメージ通りの音楽を引っ張ってこれるように、複数のキーワードを組み合わせる、ということは、一定以上音楽好きでないと難しいように思います。

また、上記ができたとしても、コンテキストを持っていない（つまり聞いたり親しんだことのない）音楽については、そもそも想起することができません。

つまり、SunoAIは、自分の持っている音楽についてのコンテキストの外の音楽を生成することが難しいのです。

これを一定解決するために、他のユーザーが公開している曲を聴くことができたり、Style of Musicをランダム入力できる機能が定まっているのだと思います。

「葬送のフリーレン」で、「魔法はイメージの世界、術者がイメージできない魔法は使えない」というメッセージが繰り返し語られます。

生成AIも同じで、「想像できるものは大抵実現されてきたし、想像できないものや、使う人のコンテキストの外側のことは(ある程度偶発生は期待できるものの)生成することが難しいのかもしれません。

音楽生成AIの今後

コンテクストを言語化できない、そもそも持っていないコンテクストを取り入れることができない、という問題は、どんな生成AIにも付きまとう問題だと思います。

画像や動画については、GPT-4Vなどのマルチモーダル技術で、画像からテキストを生成することで、コンテクストを取り入れられるようになりました。
おそらく音楽についても、将来できるようになるのだと思います。

現在の音楽生成AIの学習元データは、2トラックにミックスダウンされ、マスタリングされた音源だと思いますが、将来、音楽家や権利者の協力により、ミックスダウン前のマルチトラック素材を学習できたり、ミックスダウン前後のデータを学習できたら、本当にAIに指示するだけで、作りたい音楽が作れるようになるかもしれません。
期待したいです。

もっと音楽生成を楽しむために

とはいえ、AIによる音楽生成をドライブするのは、新しい好きな音楽に出会って感動した体験だと思いますので、これまで人類が作ってきた、あるいは現在進行形で生み出されている音楽に耳を傾けて、得られた感動を言語化することに取り組んでみるのがよいと思います。

自分で楽器を演奏してみるのも楽しいですね。

自分自身が何に心動かされ、何を好ましいと思うのか、それを観察し続け、分析し、言語化し続けられる能力が、AI時代に重要なスキルなのだと思います。

Sunoクイックスタートガイド

Suno AIは下記の手順で始めることができます。
まずはSuno AIのサイトにアクセスしましょう。

こんな画面が出てきます。

わかりにくいですが、画面右上の「Make a song」をクリックします。
すると下記の画面に遷移します。

画面上部に、プロンプトを入力する入力欄が表示されていて、早速音楽を生成できそうな雰囲気がありますが、「Create🎵」をクリックすると、サインアップを求められます。

Discord、Google、Microsoft、いずれかのアカウントが必要です。
どれも持っていなかったら、Gmailのアカウントを作るのが気軽な気がしますが、好きなものでアカウントを作りましょう。

ログイン後の画面の左側メニューのExploreから、他の人が公開している楽曲を聴くことができます。
英語以外にも、中国語、ロシア語など様々な言語の楽曲が公開されています。
Style of Musicの部分が参考になるかもしれません。

左側メニューのCreateを押すと、生成画面が表示されます。

初期画面では、Song Descrioptionという入力欄と、ボーカルなしの音楽を生成するためのInstrumentalのスイッチ、バージョンを選ぶプルダウンしか表示されていませんが、Custom Modeのスイッチを押すと、入力欄が増えます。

Custom Modeでは、LyricsとStyle of Music、Titleを入力できます。

Create🎵を押すと生成が始まります。

数十秒から数分待つと、楽曲が生成されます。

生成した曲は、左側メニューのLivraryで管理されます。

楽曲一覧には、高評価、低評価、シェアボタン、メニューボタンが表示されています。

メニューボタンを押すと、様々な操作を行うことができます。

Relax：LyricsとStyle of Musicを保持して新規作成画面が開きます
Continue From This Song：楽曲の続きを生成します。LyricsとStyle of Musicは入力しなおすことができます。
Rename：楽曲のタイトルを修正します
Add playlist…：楽曲を任意のプレイリストに追加できます
Link Only：共有用のURLを発行します
Public：Explore画面に共有します
Move to Trach：ゴミ箱に移動します
Download：Audio（音声ファイル）またはVideo（動画ファイル）をダウンロードできます
Report：運営へのバグ等の報告を行う

料金プラン

Sunoは、無料プランでも50クレジット/1日が付与され、約10曲を生成することができます。
また無料ユーザーでもv3を利用することができるので、まずは料金を気にせず音楽を生成してみてください。

ずっと使うかわからないけれど、無料のクレジットでは足りないという方は、Pro Planを月額でサブスクリプションして、すぐに解約して2,500クレジットをもらって、無くなるなるまで使いまくってみるのもよいと思います。
（すぐにサブスク解除しても、サブスク開始したときにもらえるクレジットは消えません）

1ヶ月待たずに2,500クレジットを使い切ってしまうほどヘビーユーズする場合は、また有料版の契約を検討するとよいと思います。

動画の生成

上記で紹介した動画の映像素材もAIで生成しています。
AnimateDiff-Lightningという技術で、短い時間で動画が生成できます。

楽曲のStyke of Musicをそのままプロンプトとして用いたり、曲のイメージをキーワードで入力して、動画素材を生成して、それを動画編集ソフトで並べてエフェクトをかけています。

短いクリップが無機質に繰り返されるイメージは、私の好きなFuture FunkのYouTubeのビデオのイメージを引用しています。

下記でAnimateDiff-Lightningのデモが試せるので、ぜひ遊んでみてください。

最後までお読みくださり、ありがとうございました。
2024年3月24日　公開

この記事が参加している募集

AIとやってみた

25,434件

この記事が気に入ったらサポートをしてみませんか？