AIは目の次に肥えた耳を手に入れた？ - LLark : 音楽分析AI

2023年10月16日 18:47

　こんにちは！otozureのりおんです。今日は音楽とAIをトピックに話していきたいと思います。

AIが次に手に入れる感覚

　みなさんはChatGPTの最新アップデートをご存知でしょうか？OpenAI社は9月25日に「GPT-4V」の導入を発表しました。これまでは文章による指示しかできなかったChatGPTですが、GPT-4Vのおかげで文章と画像による指示ができるようになりました。これにより、画像を分析した上でユーザーの画像についての質問に答えることができるようになりました。例えば、航空写真からどの場所の上空から撮ったものなのか答えたり、webページのスクリーンショットからそれそっくりなwebページを作成するためのHTML, CSS, Javascriptを生成したりすることができます。「ChatGPTが目を手に入れた」と言われています。

　さて、目を手に入れたAIが次に手に入れるのは何でしょう？それは耳かもしれません。しかもただ聞くことができる耳ではなく、音楽を聴いて音楽的な特徴を聴き分けることができる肥えた耳です。

🐣 🎶 Excited to share LLark: A Multimodal Foundation Model for Music!

LLark is a 12B parameter model that produces text responses from (text + audio) inputs.

📖 https://t.co/3MJMZWP1RZ
🔊 https://t.co/hjmm7WKCW5
💻 https://t.co/5taynwmDOg

🧵 pic.twitter.com/2D02rj8YX5
— Josh Gardner (@jpgard) October 12, 2023

LLarK ＝「音楽のためのマルチモーダル基礎モデル」を皆さんにお披露目することに興奮しています！

LLarkは、（テキストと音声の）入力からテキストによる応答を生成する120億パラメータモデルです。

Josh Gardner @jpgard

　マルチモーダルAIというのは、テキストだけでなく画像や動画などの複数種類のデータ（＝モダリティ）を扱うことができる大規模言語モデルをもとにしたAIです。マルチモーダルAIは複数の種類のデータを理解し、その情報を統合することで、より深い洞察を得ることができたり、より柔軟で未知のデータに対しても高い性能を発揮することができます。例えば、防犯カメラの動画とその場所の音データを組み合わせてより正確に人の行動を把握することができたり、画像を提示してその画像の中の情報を要約するように指示することができたりします。前述したGPT-4VやGPT-4Vの競合モデルであるLLaVAは大規模マルチモーダルモデルの一角で、Meta AIのanyMALなど、さまざまなモデルの開発が進められています。今後のマルチモーダルなAIによるブームが期待されています。

　LLarkに関する論文は2023年10月11日に発表されたばかりです。関連ページにはLLarkの応答の例が紹介されていて、GitHubにはトレーニングコードも公開されています。残念ながら学習済みのモデルはこうかいされていないので、今日はこのLLarkについて、論文を元にLLarkが一体何をすることができるAIなのかということを中心に紹介していこうと思います。

GitHub - https://github.com/spotify-research/llark

音楽理解のためのマルチモーダルモデル：LLark

　現在活発に開発が行われているマルチモーダル大規模言語モデルですが、音楽理解において画像理解のような進歩が見られません。すでに音声とテキストを扱うことができるマルチモーダルモデルは存在しますが、現状では音楽に特化したマルチモーダルな大規模言語モデルは少ないうえ、一つのタスクのために学習されたものがほとんどで複数のタスクに対する有効性は限定的でした。そんな中でLLarkは音楽に特化して、かつ１つのモデルで複数のタスクを高い性能で行うことを目的に開発されました。

LLarkは何がすごい？

　LLarkが既存のモデルと一線を画すのは、複数の音楽タスクに取り組むことができるという点です。LLarkは開発過程で現状の課題となっている原因に対処し、単一のモデルで、音楽理解、キャプショニング、推論の3つのタスクをこなすことができるようになりました。LLarkは以前の研究よりも幅広いタスクに取り組むことができるだけでなく、LLarkの性能は以前の研究よりも優れているということが示されています。LLarkの開発過程で課題を解決するための手法が、LLarkの性能を向上させることにも貢献しているようです。

LLarkができること

　先ほども紹介した通り、LLarkができるタスクは、音楽理解、キャプショニング、推論の3つです。さらにLLarkはそれ以上のタスクも可能で、音楽をきいてその曲にあった小話を作り上げることや、その音楽が映画で流れるならどんなシーンで流れると思うか、というような問いに対しても的確に答えることができてしまいます。

1. 音楽理解

　音楽理解とは、音楽の基本的な特徴を聴き分けるタスクです。テンポや調、ジャンル、楽器などが基本的な特徴です。LLarkはこれらの特徴を文章で表現することができます。例えば、「この曲はAメジャーで、テンポは120BPMです。ジャンルはポップで、ピアノとギターとボーカルが使われています。」というふうに音楽の特徴を答えます。

2. キャプショニング

　キャプショニングとは、音楽の内容を文章で説明するタスクです。このタスクは、マルチモーダルモデルや音楽の研究者に注目されているもので、アクセシビリティへの応用が期待されているようです。
　LLarkの応答例を見ると、確かにかなりの精度で音楽の内容を捉えていて、楽器に対する洞察もなかなか的を射たものになっていると思いませんか?しかし、いくつか応答の例を見てみると、同じ表現や似た表現が複数の例で見られ、それらの表現が決まり文句のように見えてしまう気もしました。
　LLarkの応答を紹介している関連サイトにある例の一つを一部を抜粋し、日本語訳にした上で引用します。

（LLarkに示した音楽）
プロンプト：このオーディオの内容を詳しく説明してください。

LLark：オーディオクリップを聞いていると、生き生きとしたエネルギッシュな感じのロックソングが聞こえてきます。曲はギターの短いリフから始まり、ドラムのビートが続く。ギターはキャッチーなメロディーを奏で続け、ドラムは終始安定したリズムを刻みます。曲のテンポは適度に速く、思わず動いて踊りたくなるようなビートだ。
ギターはこのクリップのメイン楽器で、曲のメロディとハーモニーの土台を提供している。パワー・コードとメロディックなラインを組み合わせて演奏し、緊張感と解放感を生み出している。ギターは歪んだ音色で演奏され、生々しくエッジの効いたサウンドを生み出している。
ドラムは、曲を前進させるドライビング・リズムを提供する。一貫したビートを刻み、ダウンビートを強調し、音楽に強いグルーヴ感を与えている。ドラム・パターンはシンプルだが効果的で、他の楽器にしっかりとした土台を提供している。

http://storage.googleapis.com/music2text-public/index.html

この質問に対するLLarkの回答が日本語にすると814文字とあまりに説明が長かったため、後半は省略しました。引用に示した内容に加えて、LLarkは曲全体のムードや曲の構造、曲の主な調や、使われているコード進行のコードを聞き分けてユーザーに説明してくれます。

3. 推論

　これはLLarkの能力の中で一番注目すべき能力です。LLarkの論文では、高レベル推論とされており、（a）曲の複数の側面に関する知識を組み合わせるか、（b）曲の側面と実世界に関する外部知識とを結び付けるような推論を要求するタスクと定義されています。つまり、音楽の複雑な側面を組み合わせたり、音楽と実世界のことを結びつけて回答を生成することができるということです。例えば、楽器や演奏技法がバロック様式を示していることを理解したり、曲がどんな状況（例えばディナーパーティーや勉強やダンスクラブなど）に適しているかを答え、その理由を述べたりすることができます。
　僕が一番驚いたのは、音楽で使われている演奏法や表現を再現する方法を教えてくれたりもするということです。曲を聴いていてこの音は何の楽器で演奏しているんだろうとか、この独特な音はどうやって演奏しているんだろうとか疑問に思っても、LLarkに質問すれば教えてくれます。
　同様にLLarkの応答を紹介している関連サイトにある例の一つを日本語訳にした上で引用します。

（LLarkに示した音楽）
プロンプト：この曲を他の類似の曲と差別化する可能性のある特徴は何ですか？

LLark：他の似たような曲と差別化できる可能性のある特徴には、使われている楽器の特定の組み合わせ、特定のコード進行とハーモニー、テンポとリズムパターン、そして全体的なムードと伝えられる感情などがあります。それぞれの曲には、独特のサウンドとフィーリングを生み出す、独自の要素の組み合わせがあります。

http://storage.googleapis.com/music2text-public/index.html

こんなことだってできる

　次の例は音楽を聴いてその音楽が映画のどんなシーンに合うかを答えている例です。曲を聴いてみればLLarkの回答が、僕たちがこの曲を聴いて感じることとかなり一致していることがわかると思います。

プロンプト：この曲が流れている映画のシーンを描写してください。

LLark：この曲はゆったりとしたテンポとメジャーコードで、古典的な西部劇やロードトリップ映画のワンシーンによく合いそうです。主人公が広々とした田園地帯をドライブしたり、馬に乗って埃っぽい道を走ったりするシーンを想像してみてほしい。シンプルで温かみのある音楽が、広大な風景や登場人物の自由な動きを引き立てるだろう。

http://storage.googleapis.com/music2text-public/index.html

LLarkは音楽を聴いて、その内容をただ答えるだけでなく特定の性格、例えば海賊になりきって答えたり、音楽の文化的な背景や歴史を教えてくれたりもするようです。

LLarkはどんな役割を果たすだろうか

　最近話題となるAIというのは、これまで時間がかかっていた日々の仕事などを自分たちの代わりにやってくれたり、人間のアイデアを補強してより良いものにするなど、僕たちの役に立つという側面が評価されて話題になっていると思います。例えば、テキストを入力したり、スタイル・ジャンルを指定したりすることで作曲をするAIは、作曲のプロセスを簡単にするという点などが評価されていますよね。では、LLarkはどのような形で人間の助けになるでしょうか。

　LLarkによるアクセシビリティの向上は、音楽を楽しむ権利や可能性を多くの人に広げるという意味で、非常に重要な役割だと思います。音楽は人間の感性や感情に訴える芸術であり、人々を魅了する力があります。しかし、聴覚障害者にとっては、音楽を聴くことが困難であり、音楽の表現やメッセージを理解することが難しかったりすることがあります。LLarkは、音楽の内容やムードを文章で説明することで、聴覚障害者にも音楽の魅力や意味を伝えることができます。また、LLarkは音楽に合うシーンや状況を推測することで、聴覚障害者にも音楽の背景やコンテキストを提供することができます。これらの機能は、聴覚障害者が音楽に対する理解や感動や共感を深めることに役立つでしょう。LLarkは、音楽に関するアクセシビリティの問題に対して革新的な解決策を提供する可能性があると言えます。
　さらに、LLarkは音楽に合わせて歌詞やミュージックビデオなどを作ることもできるかもしれません。LLarkは音楽の内容やムードを考慮することも、音楽に合うシーンや状況やキャラクターなどを推測することもできます。これまでの歌詞から作曲をするというアプローチとは逆に、音楽からその曲に合った言葉やイメージや感情などを選び歌詞を生成したり、音楽に沿った適切な映像や物語やアイデアなどを考え、音楽の雰囲気やテーマやメッセージなどを表現することができる可能性があります。
　もちろん、これらは僕の予想ですので、実際にLLarkができるかどうかは分かりません。しかし、LLarkの能力は非常に高度で多様であり、音楽に関するさまざまな活動や目的に応用できると思います。

終わりに

　今日の記事では、LLarkについて紹介し、主にLLarkができることを中心に取り上げました。実際にモデルを自分で試すことはできないものの、論文や関連サイトを見る限り、音楽の特徴や内容を文章で説明したり、音楽に関する高度な推論を行ったりする性能が十分高いことがわかります。音楽を聞き分けるための耳を手に入れたと言っても過言ではないのではないでしょうか。しかし、音楽の専門家による音楽の内容の説明には劣るようなので、まだまだ耳は鍛えないといけないですね。今後に期待です。マルチモーダルモデルの開発・研究はこれからさらに加速していき、それとともに音楽を扱うことができるモデルもより改良されていくことでしょう。人間にしかできないと思っていたことが徐々にAIにもできるようになっていくことは、技術の発展にワクワクする一方で、AIが人間よりも知能が高くなる日が近づいているようで恐ろしさもありますね。
　この記事ではLLarkのアーキテクチャや課題への対処の仕方には触れなかったので、また別の記事で詳しく取り上げたいと思います。

otozureは他にも様々な音楽に関する情報や感想、エッセイ等を発信しています。ぜひマガジンを覗いていってください。

この記事が気に入ったらサポートをしてみませんか？