音楽生成AIの課題と可能性

ここ数日話題の音楽生成AI、『Suno AI』を触っている。
最初の感想としてはどんな歌詞を入れてもヒット曲と言われても遜色ないような曲が一瞬で生成されるのは素直にすごいと感じた。
その後何時間も触ってく上で課題感含め見えてきたものもあるのでまとめていく。

ビジネスで使える曲を出すには根気が必要

まずそれっぽいものはいくらでも出せるけど100点満点のものはなかなか出せない。

1つ目に歌詞を正しく歌ってくれない。読みが間違ってるだけならひらがなで歌詞を書くなどのテクニックでなんとかなる。しかしどんな歌詞でも曲にする関係上、曲に合わせて歌詞が崩れることが出てくる。

単純に違う言葉を発してるケースもあれば、特定のフレーズを過度に繰り返したり、文章の中途半端なところで切れることもある。

それが良いように働くこともあるんだけれども、こだわればこだわるほど勿体無いなぁってなる。
たとえば歌詞に意味を込めれば込めるほど「そうじゃない」ってなる。
したがって文章の意味に合わせて曲を作るスキルは、当分は人間の領域になりそうだ。

そして仮にそこを満たす曲が生成されたとしても、曲としての点数はまた別だ。
やっぱり曲の良さが大前提なので、正しく歌えてるかつ良い曲を作り出すとなると根気が必要になってくる。

レタッチができない

それっぽいものはいくらでも出せるけど100点満点が出ないのは画像生成AIも同じだ。指が6本あったり、背景の人の顔が潰れてたり、腕が増えたりする。
ただ画像生成AIの場合はある程度レタッチが効く。素人でも指消すぐらいは雰囲気でできるし、プロであれば余裕だろう。

しかし音楽生成AIはそれが難しい。
プロならもしかしたらやりようあるかもしれないけど、少なくとも自分には「作り直す」以外の選択肢が取れない。

なので画像生成AIよりもより試行回数が必要になる印象だ。

歌詞が大事

いわゆるAI界隈はプロンプトゲーになる。
どんなプロンプトで何が生成されるかって知識が全てだ。

しかし音楽生成AIは歌詞の比重が大きい。ジャンルなどを指定できる箱はあるけどそこにテクニックはそこまで介入しない。

たとえばAメロ、Bメロ、サビと曲を1番、2番と構成しても、1番と2番で単語の文字数あってなくて韻も全然踏んでなかったら1番と2番で全く別の歌い方をされる。
つまり違うフレーズでサビを繰り返すみたいなことをやるには歌詞の構成力が必要になる。

また良い曲になるどうかかも結構歌詞に依存している印象を受ける。
何回生成しても良い感じになる歌詞もあれば、常にぬるっとした曲になる歌詞もある。

特に大事なのがサビの歌詞だ。
たとえば文末がA I U E Oどれで終わるかでシャウトできるかが決まりそうだし、AIの仕組み的に「この単語だとこう歌い方になりがち」みたいのもありそう。
サビで盛り上がるためには、盛り上がる歌詞を見つけ出す必要がある。

もちろんシンプルに響きの良い音のつながりってものがあって、素人が適当に文字を並べるのとラッパーが本気で作ったものとでは差が出るだろう。

もちろんプロンプトも重要

もちろんプロンプトもプロンプトで奥が深い。
ジャンルを指定するプロンプトで「jazz」など入れるのは初級として、曲のテンポ、ボーカルの声の特徴、暗い曲、明るい曲などいくらでも指定のしようがある。

また歌詞の中にもプロンプトを埋め込むことができる。
「メロディ」「サビ」などの指定はもちろん、「ラップ調のサビ」「インストの繋ぎ」などパターンは様々だ。

与える文字数が多いぶん自由度が高く、画像生成AIや文書生成AIより奥が深いと感じる。

何に使えるか

さて、ここまでの課題感踏まえて何に使えるだろうか。

まず歌詞をのっけると根気が必要だが、逆にいえば歌詞のない曲であれば簡単に良い曲を生成できる。なのでゲームのBGMなどは生成AIで無限に作れる。画像生成AIと合わせて個人開発のハードルがものすごく下がったと感じる。

また低コストで自由な歌詞の曲を作れることで「無意味に曲をつける」ということが起こってくるかもしれない。
まず自分の作った漫画、小説などにいちいちテーマ曲を作ることができる。ファンが感想を曲で伝えるとか、「恋人に歌を送る」みたいなこともできる。

企業のいちサービスにテーマ曲を作ることはもちろん、新機能リリースのたびに曲で機能説明するとかもできる。
それ自体なんの意味があるのって感じだけど、今ならどこもやってない分話題になりそうなのと、あと「歌詞のフレーズ」って結構頭に残るので使い道次第じゃ効果あるんじゃないかと思う。
CMも「車売るなら〇〇〜♪」みたいにフレーズを頭に残すことが目的であるように、うまいこと頭にフレーズを残せれば企業としては勝ちだ。
そのためにはまず曲を聴いてもらうってハードルが必要なので動画メディア持ってるような企業でないとつらそうだけれども。

今後への期待

画像生成AIにもベース画像から描き込む機能があるが、音楽生成AIもそれが欲しい。(探せばあるかも)
そうすれば90点の曲をベースに微調整して100点目指したり、同じ曲のアレンジをしたり、言語を変えたり、色々やりようがありそう。

逆にいえばそれができるようになれば本格的に音楽生成の民主化が始まりそうに思う。

この記事が気に入ったらサポートをしてみませんか?