![見出し画像](https://assets.st-note.com/production/uploads/images/108254133/rectangle_large_type_2_12f220eaf851c40f0d23cd089ddc70db.png?width=800)
MuseCoco: テキストに沿ったMIDIファイルを生成
以下論文が面白そうだったので、論文前半の構造の説明の部分をななめ読みしてみました。
1.MuseCoco概要
MuseCoCo は、Music Composition Copilot(作曲 副操縦士) の略
テキストからMIDI形式(Symbolic Music)を生成する。MIDI形式での出力は、他の提案で公開させているオーディオの形で直接出力する方法よりも編集などが容易なので活用しやすい。
ユーザーが音楽知識がない場合は、第1ステージのモデルを使って直感的に記載したテキストから音楽属性を生成したのち、これを第2ステージに入力して音楽を生成する。音楽の知識がある作曲家などのユーザーは、第2ステージの音楽属性を直接入力して作曲させてもよい。
第1段階のテキストから音楽属性(Attribute) の抽出は教師あり学習、第2段階の音楽属性(Attribute)から音楽の生成は、自己教師あり学習を用いたモデルを用いる。
![](https://assets.st-note.com/img/1686747751702-oN9LrVN82f.png?width=1200)
![](https://assets.st-note.com/img/1686754670329-VKmqYOIOyf.png?width=1200)
2.音楽属性から音楽生成ステージ (Attribute-to-Music Generation)
ほとんどの音楽属性は(データセットの)音楽シーケンスから抽出できるため、自己教師あり学習が適用できる。大量のラベルなしデータを活用できるためデータ効率の高いアプローチとなる。
Figure 2の(b)参照: 学習時はデータセットの音楽シーケンスから音楽属性を抽出してPrefix tokenとし、special tokenの[SEP]をはさんで、Misic tokenと合わせてTransformerの入力トークンとして学習する。
3.テキストから音楽属性への変換ステージ(Text-to-Attribute Understanding)
客観的な属性の楽器、音域、キー、テンポ等と、主観的な属性のアーティスト、音楽ジャンル、感情を音楽属性の分類用のトークンとして学習する。
4.音楽の生成例・Githubリポジトリ
以下に、生成例が掲載されているので試聴してみてください。Baselineとして、GPT-4とLanguage-music BART-baseとの比較もされています。
感想
(素人の感想ですが)全体的に、MuseCocoで生成したものは、メロディー、コード、リズムともに音楽的な破綻がなく、かなり自然に聞ける気がしました。
今までも簡易なものはあったと思いますが、DTMソフトにこのようなAI機能が内蔵されて、AメロとBメロの間をつなぐとか、人間が入力したメロディーをより音楽的に自然な感じに訂正するとか、コパイロット的な機能がいろいろ実現できそうですね。たのしみです。
記載誤り、理解不足などございましたら、ぜひコメントお願いします。
おしまい
この記事が気に入ったらサポートをしてみませんか?