LDMを用いてテキストをオーディオに変換するText-to-Audio(TTA)生成技術『TANGO』の解説です。人間の音声や動物の鳴き声、自然音や人工音、効果音などのリアルな音声をテキストから生成できます。
公開日:2023年5月3日
※動画を再生してから読むのがオススメです。
こんにちは、WorldofAIのYouTubeビデオにお帰りなさい。
今日のビデオでは、TANGOという素晴らしい新しいプロジェクトを紹介します。これは、テキストエンコーダーとしてFlan-T5という大規模な言語モデルを使用した、テキストから音声への生成モデルです。
Flan-T5は、命令や思考の連鎖に基づくタスクのために微調整されており、基本的にXeroを大幅に改善し、数発のパフォーマンスや多くの自然言語処理タスクも実現しています。
この素晴らしいエンコーダーを使うことで、素晴らしい音声をテキストの形で表現することができるのですから。
今日のビデオでは、このプロジェクトについてもう少し詳しく紹介し、このプロジェクトが達成しようとしていることについて、もう少し詳しく分析します。
また、デスクトップにインストールし、何をしようとしているのか、さまざまな例をお見せします。
そして、実際のウェブフロントでの操作方法を紹介するリンクも用意しました。
そして、先ほども言ったインストール方法も紹介します。
もしまだ購読していないなら、ぜひ購読してください!たくさんのコンテンツがあり、たくさんの価値があるので、間違いなく恩恵を受けることができます。
私はいつも毎日投稿するよう最善を尽くし、皆さんに最高のコンテンツを提供するよう努力しています。
だから、私のビデオをチェックすることを強くお勧めします。あなた方が間違いなく利益を得ることができるものがたくさんあります。
では、早速ビデオに入りましょう。
さて、今回ご紹介するのは、テキストからオーディオへの新しいジェネレーティブ・アプリケーションです。
このプロジェクトでは、LLMの一種であるFlan-T5を使用しており、LLMの中に組み込まれたテキスト・エンコーダを使用しています。
そして、テキストデータの入力を処理するために、特に細かく調整された命令になっています。
また、TANGOのモデルでは、音声生成のためにU-netベースの拡散モデルをトレーニングします。
これは、彼らが開発したもので、このビデオでぜひ取り上げたいと思います。
さて、LDMのトレーニングは、他の最先端モデルが使用するデータセットよりもかなり小さいにもかかわらず、TANGOは、目的と主観の両方のメトリクスで同等のパフォーマンスを発揮することができたと私は思います。
今日のビデオでは、他のTTAと比較しながら、TANGOが何をしようとしているのか、モデル、トレーニング、インターフェイスのコードを、事前トレーニングされたデータでもう少し良くすることで、最高のアウトプットを得ることができるのか、もう少し深く分析したいと思います。
さて、世の中には様々なTTAがあるのに、なぜ私がこのようなアプリケーションを紹介するのかと思われるかもしれません。
基本的には、条件付きサウンドエフェクトの生成の素晴らしさを例として紹介することで、このアプリケーションの素晴らしさを理解していただけると思うからです。
また、このプロジェクトは4A6000GPUで学習され、基本的にはFlan-T5の微調整されたモデルでスーパービジョンされています。
これにより、より少ないデータで最適化され、最高のアウトプットが得られるようになっています。
では、実際にどのように機能するのでしょうか?
フローチャートを見てみましょう。
TANGOのプロジェクトは、基本的に3つの主要なコンポーネントで構成されており、これをご覧ください。
この図に示されている通りです。
最初のコンポーネントは、テキストプロンプトエンコーダで、ここでテキストフォームのデータを受け取り、希望する音声の入力説明を受け取り、基本的にそれをエンコードします。
2つ目のコンポーネントは潜在拡散モデルで、エンコーダーのテキスト表現を使って、入力された希望する音声の潜在的な表現を基本的に生成します。
これは、標準的なノイズと逆拡散による先行表現です。
3つ目のコンポーネントは、MELスペクトルオーディオ図です。
これは、最新の音声表現が構築され、基本的な出力に供給され、生成反応を得ることができるものである。
では、実際にいくつかの例を挙げて、テキストからオーディオへのアプリケーションとして何をしようとしているのか、よりよく理解することにしましょう。
巨大な部屋の中で男性が話しているという実際のプロンプトを与えると、エンコーダーを使ってこのような生成的な反応を得ることができます。
この表現から、実際のエンコーダーが実際の説明的なテキストを表していることがわかります。
また、例えば、小さな部屋と比較してみましょう。
エコーが少なく、小さな部屋を表現していることがわかります。これは非常に素晴らしいことで、例えばスタジオを使うなど、さまざまなことができるようになります。
私の意見では、より洗練されたサウンドになりました。
レーシングカーが通り過ぎた後、消えてしまうというようなことも可能です。
戦場の音を表現して、どれくらいの音量になるかわからないから音を小さくしてみよう。
さて、皆さんはどうかわかりませんが、これはさまざまな音にとって大きなブレークスルーになるかもしれません。さまざまな著作権サービスが、さまざまな音に著作権を与えて独占しようとするとき、このようなものを使うことができるのです。
しかし、実際にこのようなことをする前に、制限もありますので、実際にこのようなことをする前に、これからお話しすることにご期待ください。
さて、これらはあなたが見ることができる記述の例の一部であり、あなたが実際に彼らのウェブサイトを見てみることができる多くの異なるものがあります。
下の説明文にリンクを貼っておきますので、この方法で実際に彼らがアプリケーションで何を達成しようとしているのか、よりよく表現することができます。
さて、オーディオLDMというものもあり、基本的にはTANGOからではなく、TANGOがオーディオLDMから作られたものです。
では、実際の例を挙げてみましょう。例えば、水を注ぐときに木のテーブルをたたく音がするとします。このような説明をすると、audio LDMはそれをどのように出力するでしょうか。
これがTANGOの音です。
皆さんはどう思われるか分かりませんが、私はTANGOの方が断然良いと思いました。
これは、録音方法が異なるためで、正しい実際のファイルを通して正しく出力されないからです。
ですから、その点に注意してください。
そして、これは明らかに音を生成する場合、より洗練され、より良い音になるはずです。
では、別の例として象の鳴き声を考えてみましょう。
オーディオLDMで何をしようとしているのかわかりませんが、TANGOが何をしたのか見てみましょう。
これは確かに象のような音です。TANGOはより良い仕事をしました。
もちろん、まだデモなので、今すぐ最高の反応が得られるわけではありませんが、最高の反応が得られるように、実際のアプリを継続的に改良していきます。
では、実際にどのような音を生成できるのか、より良いアイデアを得るために、より大きな描写を持つものを試してみましょう。
さて、オーディオLDMでもこれだけすごいことができるんですね。
では、TANGOが実際にどんなことができるのか見てみましょう。
これは実際の映像ではないので、とても驚きです。
これはテキストから音声への変換で作られているのですが、これは正気の沙汰ではありません。
このように、さまざまなものが進化していくのを見るのは、本当に驚くべきことだと思います。
では、どのような制限があるのかと思われるかもしれません。
限界の1つは、比較的小さなデータセットでトレーニングされていることです。
これはデータセットの実際の名前です。つまり、TANGOは、トレーニングによって設定されていない概念から、良いオーディオサンプルを生成することができないかもしれません。
これは、歌やモノローグのようなもので、現時点ではそのデータセットに対してトレーニングされていません。
しかし、より大きなデータセットを追加することで、さまざまな音声生成の実際の成長を拡大できるよう、継続的に取り組んでいくつもりです。
さて、さらに、私は、TANGOは、テキストによる制御プロンプトに対して、最終的に音声生成を制御することができないかもしれないとも考えています。
これらの例に見られるように、プロンプトが好きな人は、異なる例の生成のような微妙な違いがあり、最高の洗練されたノイズを得ることができないのです。
そのため、この点は私も問題だと感じていますし、これが現在私が見ている2つの限界です。
しかし、実際の使用例については、GitHubに行けば、謝辞や使用方法について話すことができるのは明らかです。
実際に使う前に理解を深めるためにも、必ず見ておいてください。
そして、実際にデスクトップにローカルにインストールする方法について、少し説明します。
まず最初に、Gitがインストールされていることを確認する必要があります。
これは、リポジトリをデスクトップにクローンできるようにするためです。
次に、Pythonをインストールしてください。これは、コードを展開したり、実際のパッケージを編集したりするのに使うものです。
そして最後に、Visual Studio Codeが必要です。
これはオプションで、実際のパッケージの編集や解凍に使用するコードエディターです。
WindowsやLinuxなどのプロセッサやコマンドプロンプトを使うこともできますが、個人的にはVisual Studio Codeを使う方がずっと簡単で、実際に作業するのに適しています。
まず最初に、リポジトリのクローンを作成する必要があります。
このリンクをコピーしてもいいですし、このリンクをクリックしてこのリポジトリをコピーしてもいいです。
次に、コマンドプロンプトを開いてください。
git cloneのリンクを貼り付け、Enterキーを押してクリックします。
さて、すべてのファイルのインストールが完了したら、その間にできることは、実際のTANGOのフォルダに入ることです。
それはCD TANGOをクリックすることです。
そして、そのフォルダに入ったら、リポジトリの様々なファイルをデスクトップに解凍することができます。
そのためには、Enterをクリックし、このリンクをコピーしてここに貼り付けます。
これで、2秒ほど時間がかかります。
PyTorchが正しくインストールされていないのでエラーが出たと思いますので、これを入れてインストールしたことを確認してください。
つまり、正しいファイルをインストールしたら、これをインストールすることで正しいファイルに入ることができるのです。
これをコピー&ペーストして、CDディフューザーのファイルに入るようにします。
この中に入ったら、コピー&ペーストをクリックしてディフューザー・パッケージをインストールし、ディフューザー・ファイルにインストールすることができます。
さて、ここで少し問題があります。実際のファイルを正しくインストールできていないのです。
しかし、基本的には、ここまでくれば、さまざまなものを使って仕事を始めることができます。
そして、訓練もできますし、さまざまなデータセットで作業することもできます。
これは、実際に遊んでみて、デスクトップにローカルにインストールする方法です。
では、実際の実験結果をもう少しお見せしましょう。
これは、TANGOプロジェクトが、異なるモデル、異なるデータセット、およびパラメータを使用してまとめた結果の一部です。
TANGOのモデルは、テキストから音声への変換や様々な生成アプリケーションの最新モデルと完全に同じ性能を持ち、はるかに小さなデータセットで学習したにもかかわらず、多くのモデルを凌駕することができました。
より良いパラメータを得ることができ、全体的に有益なテキストプロンプトや、基本的に様々なTTAの様々な側面を測定するメトリクスを得ることができるのです。
TANGOプロジェクトは、モデルトレーニングインターフェースのコードと、事前にトレーニングされたチェックポイントも公開し、研究コミュニティが利用できるようにしました。
これは非常に素晴らしいことで、TTAの応用分野のさらなる研究開発を促進することになるでしょう。
では、実際にウェブ上でどのように使えるのか、その部分に触れていきましょう。
これは、下の説明文に残しておきます。
また、実際の研究論文へのリンクと、実際にデスクトップにインストールするために必要なレポやさまざまなリンクも、以下の説明文に残しておきます。
さて、このHugging Faceのインターフェイスを使った実際のアプリケーションでは、テキストから音声に変換するアプリケーションを使って、さまざまな種類の音声を生成することができるようになります。
しかも、APIキーがなくても、完全に無料でできることです。
ここで、さまざまな例を挙げてみましょう。
例えば、2つの銃声の後に鳥がさえずりながら飛び去っていく様子をクリックすると、それをクリックして送信すると、性別に応じた応答を得ることができます。
少し時間がかかりますが、これがウェブ上でできるようになる方法です。
そして、多くの人がこれを使うので、これは明らかに起こることです。
だから、そのことを心に留めておいてください。
でも、そんなの簡単だよ、みんな。
また、ステップを増やしたり、ガイダンススキルを増やしたり、パラメータをいじったりして、プロンプトで何をしようとしているのか、さまざまな種類の反応を得ることができます。
さて、それほど時間はかかりませんが、ご覧のとおり、少し遅くなっています。
GPUをお持ちの方は、ぜひ実際のローカルで実行されることをお勧めしますが、私は現在GPUを持っていませんので、実行することはできません。
しかし今回は、ウェブ上でお見せします。
このように、実際に行うことができます。
と、基本的に、この実際のアプリケーションはこれで終わりです、みんな。
このTANGOのアプリケーションはテキストオーディオとアプリケーションであり、あなたがこのアプリケーションから何らかの価値を得ることができたなら幸いです。
そして、これの使用例だけでなく、さまざまなリリースがあるはずです。
今後数週間、数年にわたり、継続的に開発され、進化していくものですので、ぜひご注目ください。
このビデオが有益なものであることをご理解いただけたと思います。
それではまた。