☕️News: Google、AI音楽生成ツール「MusicLM」をリリース

2023年6月6日 07:42

AIツールの実験場「AI Test Kitchen」で待機リストへの登録が可能

米Googleは2023年5月10日（現地時間）、テキストで説明した音楽を生成する実験的AIツール「MusicLM」をリリースしました。今年1月に発表されたサービスが、ようやく実際に試せるようになりました。

「MusicLM」とは？

「MusicLM」は、テキストを元にしてユニークな楽曲を生成する「text-to-music」モデルです。このモデルを使えば、プロのミュージシャンだけでなく、音楽に触れたことのない人でも手軽に作曲を楽しむことができます。

「MusicLM」は、AIを利用したテストツールの実験場である「AI Test Kitchen」で提供されています。利用するには「Google アカウント」が必要です。現時点では利用枠に制限があるため、待機リストに登録する必要がありますが、サンプルページではプロンプトとそれに基づいて生成される音楽の例を参考にすることができます。

「MusicLM」は、「AI Test Kitchen」アプリ（ウェブ、Android、iOS）内のツールとして利用できます。ユーザーはプロンプトにテキストを書き込んでツールによって複数の曲のバージョンを生成させることができます。

また、ユーザーは生成された作品を編集することも可能で、例えば「電子音楽」や「クラシック音楽」といった楽器の種類を指定したり、「雰囲気」「ムード」「感情」を示すことで、MusicLMによって生成された作品をカスタマイズすることができます。

オーディオ/音楽の生成例

シーケンス・ツー・シーケンス

MusicLMでは、条件付きの音楽作成を行うために、階層的なシーケンス・ツー・シーケンスのモデリングという手法を使っています。これは、音楽の作成を複数の段階に分けて考えることを意味します。

まず、与えられた説明に基づいて基本的な音楽の骨組みを生成します。次に、その骨組みにさらに細かな要素や音色を加えて、より具体的な音楽を作り上げていきます。このように段階的に音楽を作り上げることで、複雑な楽曲を生成することができます。

また、MusicLMによって生成される音楽は、24 kHzという一定のサンプリングレートを保っています。サンプリングレートは、音楽をデジタル化する際に取り込む音の詳細さやクオリティを表す指標です。高いサンプリングレートを持つことで、より高品質な音楽を生成することができます。

音楽とテキストの組み合わせのデータセットを作成

研究の結果、MusicLMは音声品質や書かれた説明の正確さの面で競合システムよりも優れていることが示されています。

Googleの研究者は、MusicLMをテキストとメロディに基づいて訓練することができることを示し、口笛やハミングのメロディをテキストのキャプションで説明されたスタイルに合わせるように適応することができます。

Googleの研究者によって作成された豊富なテキストの説明を含む5,500以上の音楽とテキストの組み合わせを含むMusicCapsというデータセットは、さらなる研究を促進するために無償で提供されています。

MusicCapsデータセット

MusicCapsデータセットには、5,521の音楽例が含まれています。それぞれの音楽には、ミュージシャンが書いた自由なテキストのキャプションと英語の特徴リストが付属しています。

特徴リストは、音楽の特徴を記述したもので、例えば「ポップ」や「メロウなピアノのメロディ」、「高音の女性のボーカルメロディ」、「持続する脈動するシンセのリード」などが含まれています。これらの特徴は、その音楽の雰囲気や要素を表しています。

キャプションには、音楽を説明するいくつかのフレーズが含まれています。例えば、「低音の男性の声が、レゲトンのビートで早いテンポのドラムの上でラップしている。伴奏の音楽はギターで演奏されているようだ。遠くで笑い声が聞こえる。この曲はバーで聞こえるかもしれない。」といった具体的な描写がされています。キャプションには、アーティストの名前などのメタデータではなく、音楽そのものについての情報が含まれています。

また、AudioSetには、2,858の評価と2,663の訓練例があります。それぞれの例は、10秒間の音楽です。

つまり、MusicCapsデータセットには音楽の例が多数含まれており、各音楽には自由なテキストのキャプションと特徴リストが付属しています。これにより、音楽の特徴や雰囲気を記述することができます。

MLサブレディットコミュニティに参加

Redditというオンラインのコミュニティプラットフォーム上で、機械学習（Machine Learning）に関連する話題や情報を共有し、議論ができます。

是非、最速のMLサブレディットコミュニティに参加しましょう！
ここでは異なるオーディオや音楽の生成例を見ることができます。新しい技術やアイデアについての議論や情報共有が行われており、参加することで貴重な情報を得ることができます。

著作権に関する倫理的な懸念

Googleは1月（2023年）の研究論文でMusicLMをプレビューしましたが、「ソフトウェアの配布の即時計画はない」と明記しました。

MusicLMにはいくつかの倫理的な問題があります。たとえば、著作権のある音楽を生成する際に、訓練データとして使われることです。Googleはさまざまなミュージシャンたちと協力して、この技術をどのように使っていけばいいのかを試行中です。

最近人気のあるトレンドとして、アマチュアのトラックがジェネレーティブAIを使用して作られ、本物と区別がつかないほどの音を生成することが挙げられます。これは音楽業界において知識財産権の問題を引き起こしており、
音楽業界は、新しい曲がジェネレーティブAIによって生成されたものであり、既存の著作権を侵害している可能性がある場合、それをストリーミングパートナーに対して警告することを求めています。

［参考資料］

この記事が気に入ったらサポートをしてみませんか？