【トピックスレポート:第9回】Googleが開発した"音楽AI"とは
こんにちは!B.O.Mの竹内です。
B.O.M(ボム)は音楽ストリーミングサービスの楽曲URLなどを一つのリンクで管理・分析できるサービスです。
B.O.Mのnoteでは、月に2本程度音楽やマーケティングについてのトピックスを紹介しています。
第9回は「Googleが開発した"音楽AI"とは」です。
先日Googleが発表した「音楽を作成するAI」に注目が集まっています。文章、画像など様々な分野において急速にAIによる創作活動が広がっているなか、音楽の領域ではいったいどのようなことが起こっているのでしょうか。
Music ML
システムについて
Google社のリサーチチームが開発しているAIは、Music MLという名称で呼ばれています。このAIは入力された文章から音楽を作り出すことができるもので、昨年9月にOpenAIが作成した文章から絵や画像を制作するAI、DALL-Eの音楽版のような機能を有しています。
現在は一般のユーザー向けには公開されていないため文章を入れて運用することはできませんが、サンプルの音源のみが公開されています。
Google社による開発
Googleが音楽系のAIを開発所有するのはこれが初めてではなく、過去に音楽を視覚化的に読み取り作曲するAI の"Riffusion" や、Google 独自の"AudioML"などを発表していましたが、複雑な構成や忠実度の高い曲を作成することには限界がありました。
しかし、MusicLMは280,000 時間の音楽のデータセットでトレーニングされており、複雑かつ様々な特徴のある楽曲の生成が可能になっています。
性能
出力される音源
Music MLが出力できる音源にはその長さや用途など様々な種類があります。以下のものはその一部です。
テキストとメロディー
指定されたメロディーを用いて楽器やムードなどのコンディションを追加できる機能です。シンセサイザー、ギターソロ、ジャズサックスなど種類も豊富に用意されています。
長い音源
Melodich technoやジャズなど特定のジャンルを1単語で5分の音源を出力することも可能です。 楽曲中ではメロディーや楽器の変化もあり、リピートも少なく音源としてクオリティの高いものになっています。
短い音源
楽器、ジャンルごとの10秒の音源も出力可能です。楽器のカテゴリーには演奏者のレベル分けもあり初級、中級、上級に段階分けされた音源を作成可能です。そのほかにもビーチ、ジムなど場所ごとのムードに合わせた音源、年代別に分かれたクラブミュージックの音源も指定して出力できます。
入力の手段
Music MLによる音楽の出力には主に文章での楽曲内容についての指示が用いられますが、ほかにも次のような入力方法も可能です。
絵画のキャプション
絵画のタイトルと作者の名前から絵画のイメージやテーマにあった音源を作成する機能です。Wikwipediaの絵画の説明を入力元にして音源が作成されてるため、絵画のシチュエーションや世界観にあったものが出力されます。
ストーリーモード
テキストのストーリーの進行通りに音源を作成する機能です。プロットを作成すると、15秒ごとに場面が切り替わる、リズムや楽器の変化からストーリー性が伝わる音源が出力されます。
現状と今後の展開
リリースについて
Googleは今の時点で創造的なコンテンツの潜在的な不正流用(盗作)および文化の盗用の問題が存在しており、Music MLを一般向けにリリースする予定は当面ないと述べています。また、アーティストの音楽制作の現場にとっても力にはなるものの、上記のリスクより導入にはまだ高いハードルが存在しています。
過去にJay-Z のレコードレーベルは、YouTube チャンネルのVocal Synthesis に対し、AIを用いてJay-Zの楽曲を勝手にカバーしたとして著作権侵害の警告を行ったこともあります。音楽の領域におけるAIの活用が進展していくのに伴いこうしたトラブルも今後は増えてくるかもしれません。
おわりに
今回はGoogleが発表したMusic MLに焦点を当て、「音楽を作成するAI」について考察を行いました。音楽分野におけるAIの活用はリスニングや制作において新たな可能性を拓いていくものとなりますが、同時に今後の発展には更なる法改正や技術の発展が必要になっていくことが考えられます。
今後もB.O.Mのnoteでは、本件のような音楽・マーケティング業界におけるトピックスについての発信を行っていく予定ですので、ぜひフォローしていただけますと幸いです!
Twitter(@BOM_twjp)のフォローもよろしくお願いいたします!
この記事が気に入ったらサポートをしてみませんか?