見出し画像

音楽家に憧れていた

音楽家に憧れていた。熱狂する観客のまえで歌い、演奏する人たち。

Made with DALL-E、以下同

ジリジリと照りつける太陽に、日陰を探して地べたに座り、夏フェスで聴いた、あの曲。きっと記憶に残り続ける。

本の編集も、たくさんの人の役に立っている、それなりの自負もあった。でも、音楽ライブを終えたときの、あの高揚感とは違う。

だから、音楽生成AIの登場に歓喜した。この2週間弱、夢中になって曲をつくった。楽器を演奏したこともない、素人にもかかわらず。

2日に1曲のペースでつくった。覚えたての動画生成AIも使って、ミュージックビデオにした。

『きょうもひとり』は、ささやかな再生回数だが、いちばん視聴されている曲だ。

でも「誰かに自分の音楽を聞いてほしい」と思ってつくったわけではない。

なんなら、いちばん自分のつくった曲を聴いているのは、自分自身かもしれない。ひとりで全部をつくれたことが嬉しいからだ。マインクラフトで、たんたんと建築していく楽しさに近いのかもしれない。

この感動を得られるチャンスは、AIが劇的なスピードで進化する今、一生に一回しかないだろう。AI創作について、いろいろ思うことがあったので、ここにメモしておく。


楽曲のAI創作

「楽曲→映像」の順番でつくる。これは想像どおり。

楽曲は、最初に「歌詞」を書く。ChatGPTに書かせることもできるが、全部を書かせると歌詞がまったく自分ごと化しない。

「◯◯◯という文章を書いたけど、これを◯◯◯みたいな歌詞にして」とプロンプトを書き、大量に挙げられた作例のなかから「これが好き」という言葉を選び取り、その一部を「歌詞」に入れた。要はChatGPTとの壁打ちだ。

すべての「歌詞」を自分で書くパターンと、サビだけ書いて残りを音楽生成AIに書かせるパターンがある。これはUdio(ユーディオ)の仕様によるところが大きい。

Udioは、「歌詞」を自動生成させるか、自分でつくるかを選べる。プロンプトとしてrock/pop/hip hopなどの好きなタグを選び、ワンクリックで約30秒の曲がつくられる。その30秒の曲を気に入れば、残りの前後30秒をつくっていく。

『僕はコムギ』は、サビの30秒の「歌詞」は、自分でつくった。でも、前の30秒はAIの"おまかせ"だ。

「さぁテーブル囲んで笑顔が咲くよ このモーニングルームで君と話そう」や「だって僕はコムギ 君の毎日を照らす光 だから私といて」はAIが書いた。そのせいで、宗教っぽい曲になってしまったことに、自分でも笑ってしまった。が、坂道ファンの色合いがよく出ているのではないかと思う。

『Endless Blue Sky』は、後半がAIの自動生成だが、プロンプトを変えて非常に上手くいった楽曲だ。そのせいで、前半が男性ボーカルにもかかわらず、後半が女性ボーカルに切り替わる。

この途中でプロンプトを変えるパターンは、いろいろ試したがほぼ上手くいかなかった。が、奇跡的にこの曲だけは成功した。あまりに自然に切り替わるので違和感はないが、よく考えれば不思議な一曲だ。

『ハピラキ』は、前半の「歌詞」がAIの自動生成だ。

「キラキラ輝く君といっしょに Let's jump and ride on the rhythm of love ハートが弾んでトキメキ加速 まわるメリーゴーランド 今日はエンドレス ピンク色の空 瞳に映る君の笑顔が ハイテンション」

プロンプトに日本の女性アイドルグループっぽいものを入れていたからか、そのとおりにAIが歌詞を書いてきた。曲調に合わせており、じつに見事だ。

映像のAI創作

楽曲をつくったあとに、映像を合わせていく工程も最高におもしろい。

最初は手探りだった。『僕はコムギ』と『とりあえずok』は、初期につくった映像だが、たった2週間にもかかわらず、今見ると「下手だな」と思う。

これは「ChatGPTでキービジュアルを作成→Pikaで絵を動かす」という手順で作成されている。

やっていくうちに、それぞれのAIが持っている生成のクセみたいなものがわかってくるわけだが、最初は何回も生成をやり直すはめになった。

たとえば、Pikaの「画像→映像」が苦手とするのは、2人以上の人間の顔の表情だったりする。Pikaは最初に3秒を生成するが、映像として使える秒数が1秒だった場合は、動画編集上でスローモーションを使うことで尺を調整している。そんなTipsがこの2週間で山ほど積み上がった。

そうしたAIのクセは、データが飲み込まれるほど改善していくのだろう。Pikaがアップデートで、プロンプトから直接アニメを生成できるようになった。

その最新機能を使って、初めてつくった映像が『TikTokで君を知った』だ。

これは「文字(プロンプト)→映像」の順番で生成されている。アニメキャラクターの表情が豊かになっていることが、見てすぐにわかるだろう。

ただし、同じキャラクターを登場させることが難しいのは、画像生成AIと同じ。その都度、新しいキャラクターが生成されてしまうため、ミュージックビデオとして1つのストーリーに見せるのには工夫がいる。

オムニバスっぽくなってしまうのは、この理由による。しかし最近になり、画像生成AIで同じキャラクターをつくれるようになってきた。なので、こうした課題もすぐにクリアするのかもしれない。それだけAIは急ピッチで進化している。

AI創作になぜハマるのか?

最後に、AI創作について感じたことを書き残しておく。

できなかったことがAIならできる

才能も実力もない、自分のような素人でも「楽曲をつくれる」という驚きがいちばん大きかった。文章が苦手だった人は文章生成AIにハマるだろうし、絵を描くのが苦手だった人は画像生成AIにハマるのだろう。AIとの会話は友だちと話すように自然言語なのだから、時間があればAI創作はやってみたほうがいい。ふつうに楽しい。

サイコロを振る運ゲー要素

「いい曲ができるか」に才能も実力も関係なく、生成AIは少しだけプロンプトを工夫してサイコロを振り続けるゲームだ。同じプロンプトでも、ときどき驚くような作品が生成される。マイケル・サンデルが指摘するように、世の中はエリートの「能力主義(メリトクラシー)」に溢れている。だからこそ、AI創作の運ゲー要素が、クリエイティブ・クラスとの分断を埋めるきっかけになるのかもしれない。

フォーマットの制約と創発

カラオケが流行れば「歌われる」曲が流行り、TikTokが流行れば「踊れる」曲が流行る。音楽生成AIが流行れば、30秒単位の楽曲が無限に生まれるのかもしれない。

今朝つくった曲『君がいたなら』は、1分ちょうど。「こんな短い曲なんて…」という感覚はまったくない。むしろ、これ以上、曲が長いと生成する精度が落ちる。

短い楽曲しかつくれないからこそ、フィードバックのループが早い。制約こそがクリエティビティを創発する。

デジタルテクノロジーの原理により、万単位で聴かれる曲と、数百単位で聴かれる曲に二極化していくのだろう。

すでに大きな損失を被るクリエイター

最も危ういのは権利関係だ。楽曲やアニメーション映像を視聴していただければ、日本でつくられた楽曲やアニメのデータをAIが取り込んでいることは明白だ。ひどい場合は、タグにアーティスト名などの固有名詞が残っていることがあった。

AIはタダではない。この2週間で大量の生成に100ドル以上、課金している。しかし、おそらくAIを運営するスタートアップ企業から、データの提供元に使用料は支払われてないだろう。この問題は、いまだ議論の俎上にある。

最後に

2024年5月1日時点で、全7曲、7分42秒の楽曲。人間が書き記した約3,000字の本稿メモといっしょに、生成AIの現在を感じていただければと思う。