見出し画像

最新のAIオーディオ埋め込みモデルの評価と比較 — 2022年度版

要約

2022年は、これまでのAIの歴史の中で最も劇的な年でした。4月にOpen AIから発表された「DALL-E 2」は、7月にプライベートベータ版が発表されました。Twitter 上では、シンプルなテキストプロンプトから生まれる新しい刺激的な画像が溢れました。いわゆるプロンプトエンジニアリングは瞬く間に流行し、9月には同様のモデル、Stable Diffusionがオープンソースで発表され、パソコンさえあれば誰でもアクセスできるようになって、世界を驚かせました。
Stable Diffusionの成長は驚異的で、GitHubでの採用数を示す以下のグラフを見れば一目瞭然です。

また、OpenAIのCLIPモデルを再現する試み(https://github.com/mlfoundations/open_clip)も順調に進んでおり、元の実装よりも上回るパフォーマンスを発揮しているケースもあります。
オーディオの分野は、比較的静かな状況ですが、大きなリリースに向けて多くの取り組みが行われています。Stable Diffusionのすぐ後に発表されたRiffusionは、Stable Diffusionをスペクトログラム上でファインチューニングしてサウンド生成に再利用することが確かに可能であることを示しました。一方、Harmonaiは最近、オーディオのみで学習させた拡散モデルで生成した音楽を365日24時間ストリーミングで流すyoutubeチャンネルを発表しました。

しかし、この記事の目的は、2022年のオーディオ埋め込みの進歩について伝えることです。昨年リリースされた4つのエキサイティングな新モデルを試し、HEARベンチマークで評価し、2021年のNeurIPSコンペティション時の最高のモデルに比較してどのようなパーフォマンスが可能かを確認します。

HEAR ベンチマーク

HEARベンチマークが、あるシンプルな問いに答えようとします:

日常的なさまざまなドメインでの下流のタスクに対して、ファインチューニングなしで最もよく一般化可能な音声埋め込み手法は何か?

ベンチマークは音楽、スピーチ、環境音など、複数のオーディオドメインにまたがる様々な異なるタスクを集めています。事前学習されたモデルを使用して特定のタスクの特徴を抽出し、その上で軽い分類モデルを訓練し、この特徴が与えられたタスクにとってどれだけ有用かを測るという、転移学習に非常に似たアプローチで行われます。
使用されているタスクの詳細については、専用タスクページ を参照してください。

モデルの候補

選ばれた候補の中には、音声の埋め込みを生成するという特定の目的で作られたモデル、ニューラルコーデックやコンプレッサーとして機能するモデル、そして最終的に生成モデルにおける中間表現が含まれています。アルファベット 順に並べています:

Archisound

スイスのオープンソースAIラボであるArchtineaiは、インターネット上で最初のオープンソース音声拡散生成モデルの一つを

audio-diffusion-pytorchで公開しました。 拡散パイプラインの一部は、入力音声を大幅に圧縮することができるオートエンコーダです。いくつかの事前学習済みオートエンコーダは、非常にシンプルなAPIの下で

archisoundで利用可能です。この投稿では, dmae1d-ATC64-v1 モデルを使用します。

CLAP

open-clipの開発者であるLAIONは、CLIPに似た、テキストと音声のつながりを理解できるネットワークを作る取り組みも行っています。彼らの取り組みは、

CLAPのGitHubで完全にオープンソース化されています。これは現在、私たちの知る限り、キャプション付き音声の最大の一般公開データセットで学習されたモデルです。

Encoder と Soundstream

それぞれFacebook(Encodec)とGoogle(Soundstream)がリリースしたニューラルコーデックです。これらの目的は、これらのモデルの目的は必ずしも下流のタスクのためにオーディオを埋め込むことではなく、転送のために効率的に圧縮することです。しかし、圧縮という処理は情報の本質を保持するという点で知性的であると知られているため、便利な使用法が見つかる可能性はあります。

難題

途中、いくつかの難題がありました。HEARベンチマークには、オーディオクリップ全体の表現だけでなく、タイムスタンプレベルのきめ細かい表現が必要なタスクが含まれています。
このため、モデルによって異なる課題が発生します。CLAPでは、デフォルトで最低10秒のオーディオを必要とし、それ以下の長さのものはパディングされています。また、CLAPは通常、中間埋込データを返さないので、タイムスタンプレベルの埋込データを取得できるようにするために、いくつかの変更が必要でした。同時に、より長い曲のためのCLAPの特徴であるセグメントの融合機能を維持したかったので、他のモデルに比べて実装はよりトリッキーでした。
一方、他のモデルでは、細かい 時間単位での埋め込みしか返せません。ここで、全クリップの埋め込みを取得するソリューション(平均値を取る)は、実装が非常に簡単ですが、後で見るように品質という点では理想からかけ離れています。
さらに驚くべき課題は、SoundStreamのようなTF Liteモデルがhearevalキットでサポートされていないことでしたが、私たちは今後この問題について言及したプルリクエストを送る予定です。
この結果を出すために使用したコードは、Google Colabのこのノートブックにあります。ご質問やご意見がありましたら、コメント欄やメールにてご連絡ください!

結果

その結果を、タスクごとの前回のベストパフォーマンスと、選んだ各モデルのパフォーマンスを示す棒グラフで表示します。その上に、コンペティションで上位に入ったモデルであるopenl3のパフォーマンスを表示します。


CLAPはFSD50K、ESC-50、Mirdangam Tonicのようないくつかのタスクで新しいSOTA性能を獲得していることがわかりますが、Maestro、NSynth、VoxLingua107のようなタスクでは非常に低い性能になっています。論文でもこれより低い数値が報告されていることから、hearベンチマークで使用するテストデータとCLAPで使用する学習データの間に重複があり、この2つのベンチマークで新しいSOTAの数値につながったものと思われます。
もう一つ興味深いのは、Beehiveタスクでarchisoundオートエンコーダが高い性能を発揮していることです。また、ピッチ検出タスクでは調査したモデルの中で最も優れていますが、FSD50Kのようなより複雑なタスクでは不十分です。
ニューラルオーディオコーデックとarchisoundオートエンコーダはともに、より長いオーディオクリップ(FSD50K、GTZANジャンル)のこれらの複雑なタスクで低いパフォーマンスを示しており、平均値を取ることによって非常に細かい粒度の埋め込みを集約することは、正しいアプローチではないことを示唆しています。

結論

大量のトレーニングデータを用いて学習したことにより、CLAPは様々なタスクで良いパフォーマンスを発揮すると期待していましたが、今回のトライアルではそのようなことはありませんでした。さらに、ニューラルコーデックは、これまで不可能と思われていたビットレートまでオーディオを圧縮することができますが、他のタスクの入力として素朴に使用するだけでは、必ずしも良いパフォーマンスにはつながりません。MusicLMのような最近の生成モデルが示唆するように、CLAPのような高レベルの意味的表現とニューラルコーデックのような低レベルの表現の組み合わせは、前進するための一つの方法です。
この記事は、2022年に起こった進歩をまとめるために、1月の初めに書かれたものです。しかし、2023年の始まりは、テキストから音声への拡散を紹介するモデルがさまざまなグループからいくつか発表され、そのうちの1つはarchisound autoencoderの更新版をベースとしたもので、音声AIにとって非常にイベント的なものでした。2023年は、AIオーディオ全体にとって、最近の歴史の中で最もエキサイティングな年の1つになりつつあり、これはオーディオ表現側にも当てはまると思われます。

この記事が気に入ったらサポートをしてみませんか?