AIキャラクター実況をStyle-Bert-VITS2とVMagicMirrorで始めよう

Maki@Sunwood.ai.labs

2024年2月11日 20:12

仮想オーディオデバイス「VB-CABLE」の設定

実況や配信の環境構築の第一歩として、仮想オーディオデバイス「VB-CABLE」の設定から始めます。VB-CABLEは、異なるアプリケーション間でオーディオ信号を送受信するための仮想オーディオケーブルです。以下の手順で設定を行いましょう。

公式ウェブサイトからソフトウェアをダウンロードし、インストールします。

インストール後、システムのサウンド設定で「VB-CABLE」を出力および入力デバイスとして選択します。

ブラウザや録音アプリのオーディオ出力設定を「VB-CABLE」に変更し、疎通確認を行います。
詳しい手順は下記のサイトがおすすめです。

https://www.monoists.com/entry/how-to-use-vb-cable

VMagicMirrorでのマイク設定変更
次に、バーチャルキャラクターを動かすためのVMagicMirrorの設定を行います。
VMagicMirrorは特に難しい設定をせずにリップシンクできるのでおすすめです。

baku-dreameater.booth.pm

特に重要なのがマイク設定です。VMagicMirrorを使ってキャラクターに自分の声を反映させるためには、マイク設定を正しく構成する必要があります。

VMagicMirrorを起動し、「配信」メニューから「リップシンク」を開きます。
マイクの入力デバイスとして「VB-CABLE」を選択し、設定を保存します。
これにより、VB-CABLE経由で送られてくるオーディオ信号をVMagicMirrorがキャプチャし、バーチャルキャラクターが音声に合わせてリップシンクするようになります。

Style-Bert-VITS2で感情豊かなmp3音声を作成

最後に、Style-Bert-VITS2を使って、入力テキストから感情豊かな音声を生成します。
構成図はこちら

Style-Bert-VITS2は、テキストから人間のような自然な感情を含んだ音声を生成することができるAI音声合成技術です。ここでは、簡単な使い方を紹介します。

詳しい解説はこちら

Style-Bert-VITS2のウェブサイトまたはアプリケーションを開きます。

音声に変換したいテキストを入力し、希望する感情や発話スタイルを選択します。

ChatGPT4に生成してもらったニューススクリプト

みなさん、こんにちは！ニュースタイムです。
本日は、大規模言語モデル（エルエルエム）の最新の進展についてお伝えします。「モアエージェントイズオールユーニード」という論文がこの分野に新たな光を投げかけています。

大規模言語モデルの性能は、単純なサンプリングと投票方法を用いることで、生成されるエージェントの数に比例して向上することを発見しました。驚くべきことに、この方法は既存の複雑な手法と併用してエルエルエムをさらに強化でき、その効果はタスクの難易度に関連しています。研究チームは、エルエルエムのベンチマークにわたる広範な実験を行い、この発見の実証と、その発生を促進する特性の研究を行いました。結果は、タスクの難易度が高まるにつれて、エージェントの数を増やすことの効果が顕著になることを示しています。この興味深い研究についてもっと知りたい方は、論文のコードが公開されています。オンラインで詳細を確認し、この分野の最前線に触れてみてください。大規模言語モデルの可能性はまだまだ拡がりを見せています。今日のニュースでした。引き続き、最新の科学技術ニュースにご注目ください。それでは、またお会いしましょう！

「合成」ボタンをクリックすると、入力されたテキストからmp3フォーマットの音声ファイルが生成されます。
生成された音声ファイルは、実況や配信で背景音楽として使用したり、キャラクターの声として利用することができます。

ChatGPT4に生成してもらったニューススクリプト

デモ動画

まとめ

Style-Bert-VITS2とVMagicMirrorを組み合わせることで、あなた自身のバーチャルキャラクター実況を簡単に始めることができます。この記事で紹介したステップを参考に、仮想オーディオデバイスの設定、VMagicMirrorでのマイク設定変更、感情豊かな音声の生成に挑戦してみてください。AI技術を活用した新しい形のコミュニケーションを楽しんでみましょう。

この記事が気に入ったらサポートをしてみませんか？