見出し画像

【検証】AIに歌詞を書かせて、AIに曲を作らせて歌モノを作る

前回、Audiocraftを使ってインストを作成したが、今回はOpenAlのJukeBoxを使って歌モノを作る。なお、今回も使用するツールは「非営利目的」に限り使用が認められるので、未来に向けた演習ということで行っていく。商用利用を期待した人はブラウザバックをオススメする。

目的

既存の楽曲作成プロセスより、効率的に楽曲を作れるか知ること

期待していること

Spotifyとかで沢山の音楽を消費できるけど、AIを消費してクリエイターでなくても、音楽を使った活動にアプローチできること、成果に繋がるか期待できるのではないだろうか。イケていることが分かれば、きっと、YouTubeにもAI楽曲がより氾濫してくるだろう

プロセス

Stepは2つだけ!

  • AIによる歌詞生成

  • AIによる楽曲生成

前提

自分が知っている中では、この組み合わせが楽かもしれない

  • ChatGPT

  • OpenAI JukeBox

  • Google Colab(有料版)

AudioCraftと同じくGoogle Colabの無料版で出来るかは検証できていない。別な検証で有料版を使用しているためだ。基本はオープンはオープンと続き、無償で行えるようにしていきたい

実践

歌詞生成

Lofi-Hiphopに使用する歌詞、relaxして眠りにつけるような歌詞をオーダーしたら下記の返答がきた。

日本語訳)
(ヴァース1) 星空輝く夜、穏やかな風 Lofiビート響く、君との時間 忙しい日々から解放されて 心の中で平和を感じるんだ

(コーラス) Relaxして、君と一緒にいる 音楽に身を任せ、世界を忘れる Lofiサウンドが包み込んでくれる この瞬間を大切にしたい

(ヴァース2) コーヒーカップ片手に、窓辺に座って 思い出深い場所へ遠くへ行こう 過去の煩わしさ、全部置いてきて 君との時間、特別な瞬間

(コーラス) Relaxして、君と一緒にいる 音楽に身を任せ、世界を忘れる Lofiサウンドが包み込んでくれる この瞬間を大切にしたい

(アウトロ) 夜が深まり、星々が光る 君とのひととき、夢のよう Lofiビートが鳴り続けて 静かな眠りへと誘ってくれる

英訳)
(Verse 1) Beneath the starry night, a gentle breeze Lofi beats playing, it's just you and me Escape the busy days, find our release In our hearts, a sense of inner peace

(Chorus) Relax, be with you in this moment Let the music take us, the world, we'll own it Lofi sounds surround us, set us free Cherishing this time, just you and me

(Verse 2) With a cup of coffee, by the window we'll sit Travel to distant places, bit by bit Leave behind the troubles of the past This moment with you, it's meant to last

(Chorus) Relax, be with you in this moment Let the music take us, the world, we'll own it Lofi sounds surround us, set us free Cherishing this time, just you and me

(Outro) As the night deepens, stars above so bright Our time together, like a dream in the night Lofi beats keep on playing, gently lead the way Toward a peaceful slumber, at the end of the day

chatGPT3.5

曲の生成

とりあえず、Colabのコードをありがたく使わせて貰おう!と思ったが、公式のGoogle Colabが動作しなかった。どうやら、メンテナンスされていないようなので有志(?)の方が作ったColabをありがたく使わせてもらった

詳細は英語が読めない人は翻訳してみてほしい

スレッドのこの部分のリンクを使おう。Colabのコードを自分のColabにコピーして使おう

Google Colabの翻訳

後は、必要な項目を記載したら、順を追って作成していくだけだ。Colabに設定値に関する説明があるので内容を参照してほしい

残念ながら、Lofi-Hiphopのジャンルは用意されていなかったが、Lofiなら多少近くなるだろうってのと、Lou_Leedならば合うんじゃないかと思い実行した

設定

おおよそ、7時間で出来上がりだ。その間、お茶でも飲みながら他のことをしていよう。そのうち終わっている。

そして、実際に終了した結果がこちら。実際問題、生成中の7時間はメチャクチャ長いと感じる。Logの挙動見ていると最後の最後で落ちたのではと不安になったが、Greenマークだ。たぶん、大丈夫だろう。落ち着いたときに仕様も調べてみるといいのかもしれん

まさかの7時間

成果物

何というかLoFi Hiphopというジャンルがなかったこともあるが、曲もあいまって音量を下げておけばRelaxして眠れそう

評価

  • 実は、この生成時間も自分で作るよりは短い時間で楽曲が完成している(実測はしていないが半日以上は間違いなく掛かっているからだ)

  • 自分の音楽に理解のない耳からすれば、曲のクオリティも悪くはないかと思う

  • 歌詞が全部は歌われていないので、どっかで設定ミスったか、ガチャ外したかと思ったが、長時間掛けているせいか、どこかで肯定している自分がいる。でも、前提を忘れれば曲としては悪くはないんじゃないか

  • 反省点としてはAIによる生成時間が短くなる方法はないか気になった。今まで、自分の見てきた生成系は長くても5分~10分の世界だったためだ

比較

MetaのAudioCraftはメロディを作れるのか分からないが、インストではあるが少なくても1曲作成するのに数分で作成するので圧倒的に早い。こちらの方が量産はしやすいと思われる。仕組を知る必要はあるが、所謂、ガチャになるのであれば、まだ、Audiocraftの方がよさそうだ

課題

ライセンスの話について

オープンに商用利用も含めて誰でも自由に使用できるか。前述したとおり、本件で使用する音楽作成については、AudioCraftも含めて非営利の利用に限られる。例えば、AudioCraftのソースコードはMITライセンスでも、モデルはCC-BY-NC 4.0が適用される。つまり、ざっくり非商用の理解だ。

The code in this repository is released under the MIT license as found in the LICENSE file.
The models weights in this repository are released under the CC-BY-NC 4.0 license as found in the LICENSE_weights file.

https://github.com/facebookresearch/audiocraft

そのため、モデルも含めて商用で利用できるオープンソースのプロジェクト、かつ、中々良いクオリティのものを知っている人がいれば教えてほしい。また、代替案として、AI生成よりは効率的に遅くはなるが「オープンプロジェクトを活用して作成できる方法」を検討して目途が立ったら記事として公開していく

動画アップロードについて

YouTubeの動画サイトにアップロードするには、動画らしくする必要があるのではないかと思っている。なぜならば、音楽だけで聴くことはないのではないだろうか、所謂、視覚情報が必要で「絵」が重要であると思っている。むしろ、絵が主役だと思うし音楽はおまけだ。中々、引きがないと聴いてもらうことは難しい。商用につなげるためには尚更だ。強制的な演奏会でもない限り、見ず知らずの人の音楽を他人に聞いてもらうことは難しいだろう。こちらが自分にとっては1番の難易度である。残念ながらAIによるアニメーション生成を見ていると、まだ、実用的な表示は出来ていないので、現状は何かしらユーザの意図に合わせて、手を加えているのではないかといったところだ。まだ、意図した動画を全てAIで作ろうとするより、途中で手作業も組み合わせた方が効率的に作れるのでは?という方法を検討しているので、目処が立ったら記事として書くことにする

今後の未来(音楽のAI生成)について

文化庁が公開している「A I と 著 作 権」の資料を見ていると、正直、音楽も何となくhitして似ているような曲が氾濫している一面も存在するイメージもあるし、最終的に類似性が認められなければOKっていう、絵と同じ解釈になるのではないかと思う。もちろん、学習データのモデルに関する解釈もあるが、面倒なことにならなければいいかなって感じだ。恐らく権利上、面倒にはならないデータセットにはしているのだろうけど。法とは別に人は、感覚、感情、思想は持ち合わせているし、自分の利害でモノを語ることもあるだろう。各々、主観性(本人が想像する未来の実害)は持ち合わせていると思う。何となくだが、法整備が進めば「非商用→商用利用可」になってくる未来が現れてくるのではないか

ただ、AIは消費的でもあるので、生成される内容の変化、バリエーションの表現、クオリティにもよると思うけど、だんだん飽きてくる可能性も出てくるとは思う。自由に使える分、世の中、似たような音楽が氾濫して価値がなくなってくる(ありがたみがなくなってくる)かもしれない

そのときになって、初めてオリジナリティとは何かを考える時代に突入していくのではないだろうか。個人的には営利、作品のクオリティなどで計られるのではなく、何ていうか、誰しも、それぞれがしゃべるだけで尊い、歌うだけで尊いって思う時代が来るんじゃないかと思う。もちろん、声も似た人はいるだろうから、大量に聞けば飽きるのかもしれないが、唯一、個は他と異なるのではないかという解釈に辿り着きそうな予感がする。

純粋に、今まで気付いていなかった別の価値感を見出すときが来るのではないかと

おわり!

この記事が参加している募集

AIとやってみた