見出し画像

つくよみちゃんコーパスで学習して感情豊かな音声合成[TTS]をしてみる by Style-Bert-VITS2

Bert-VITS2という技術を使った音声合成ができるソフトウェア(Style-Bert-VITS2)を使って、つくよみちゃんコーパスの音声データを学習させてみました。これにより、感情豊かな音声を合成することができます。これはWebUIをつかって簡単にできます!

検証環境

  • Windows 10

  • RTX 3080

手順

  1. Style-Bert-VITS2のインストール

  2. つくよみちゃんコーパス 音声データのダウンロード

  3. Style-Bert-VITS2でデータセットの作成

  4. 学習

  5. おまけ

1. Style-Bert-VITS2のインストール

公式のREADMEを参考にStyle-Bert-VITS2のインストールを行います。
https://github.com/litagin02/Style-Bert-VITS2

2. つくよみちゃんコーパス 音声データのダウンロード

つくよみちゃん公式からコーパス音声データをダウンロードします。
ダウンロード後に解凍して、02 WAV(+12dB増幅)のフォルダにあるwavファイルをStyle-Bert-VITS2をインストールしたフォルダのinputsフォルダに配置します。

3. Style-Bert-VITS2でデータセットの作成

公式READMEのデータセット作り参考に下記のコマンドを実行してデータセット作成用のWebUIを起動します。

python webui_dataset.py

起動したらモデル名につくよみちゃんと入力して、スライスを実行します。

4. 学習

 それでは学習をしてみましょう。下記のコマンドで学習用のWebUIを起動します。

python webui_train.py

起動したらモデル名につくよみちゃんと入力、バッチサイズを環境に合わせて調整して、自動前処理を実行します。
今回はVRAMが10GのGPUで実行したのでサイズを3に変更してます。

自動前処理が成功したら、学習を開始するをクリックします。ここからは結構時間がかかるので休憩しながら待ちましょう。私の環境だと1時間以上かかりました。

学習が終わったら下記のコマンドで音声合成用のWebUIを起動して、学習したモデルを試してみましょう!

python app.py

モデル一覧で先ほど学習したモデルを選択後、ロードをクリックしてモデルをロードしましょう。
モデルがロード出来たら音声合成をクリックして、結果を確認してみましょう!

5. おまけ

今回作成したモデルと既存のモデルをマージを試してみます。声色や抑揚の付け方などをマージすることでミックスできるようです。
 下記のコマンドでマージのWebUIを起動します。

python webui_merge.py

起動したら、モデルAにつくよみちゃん、モデルBにjvnv-F1を選択します。次に話し方(抑揚・感情表現等)を1に、話す速さ・リズム・テンポを1に設定してモデルファイルのマージを実行します。

次にスタイルベクトルのマージを行います。スタイル一覧をロードしてから、スタイルのマージを実行してください。これでスタイルのマージができます。本来はスタイルのマージリストを編集する必要がありますが、今回は検証のため省略します。

最後に音声合成を実行して結果を聞いてみましょう!


いいなと思ったら応援しよう!