つくよみちゃんコーパスで学習して感情豊かな音声合成[TTS]をしてみる by Style-Bert-VITS2
Bert-VITS2という技術を使った音声合成ができるソフトウェア(Style-Bert-VITS2)を使って、つくよみちゃんコーパスの音声データを学習させてみました。これにより、感情豊かな音声を合成することができます。これはWebUIをつかって簡単にできます!
検証環境
Windows 10
RTX 3080
手順
Style-Bert-VITS2のインストール
つくよみちゃんコーパス 音声データのダウンロード
Style-Bert-VITS2でデータセットの作成
学習
おまけ
1. Style-Bert-VITS2のインストール
公式のREADMEを参考にStyle-Bert-VITS2のインストールを行います。
https://github.com/litagin02/Style-Bert-VITS2
2. つくよみちゃんコーパス 音声データのダウンロード
つくよみちゃん公式からコーパス音声データをダウンロードします。
ダウンロード後に解凍して、02 WAV(+12dB増幅)のフォルダにあるwavファイルをStyle-Bert-VITS2をインストールしたフォルダのinputsフォルダに配置します。
3. Style-Bert-VITS2でデータセットの作成
公式READMEのデータセット作り参考に下記のコマンドを実行してデータセット作成用のWebUIを起動します。
python webui_dataset.py
起動したらモデル名につくよみちゃんと入力して、スライスを実行します。
4. 学習
それでは学習をしてみましょう。下記のコマンドで学習用のWebUIを起動します。
python webui_train.py
起動したらモデル名につくよみちゃんと入力、バッチサイズを環境に合わせて調整して、自動前処理を実行します。
今回はVRAMが10GのGPUで実行したのでサイズを3に変更してます。
自動前処理が成功したら、学習を開始するをクリックします。ここからは結構時間がかかるので休憩しながら待ちましょう。私の環境だと1時間以上かかりました。
学習が終わったら下記のコマンドで音声合成用のWebUIを起動して、学習したモデルを試してみましょう!
python app.py
モデル一覧で先ほど学習したモデルを選択後、ロードをクリックしてモデルをロードしましょう。
モデルがロード出来たら音声合成をクリックして、結果を確認してみましょう!
5. おまけ
今回作成したモデルと既存のモデルをマージを試してみます。声色や抑揚の付け方などをマージすることでミックスできるようです。
下記のコマンドでマージのWebUIを起動します。
python webui_merge.py
起動したら、モデルAにつくよみちゃん、モデルBにjvnv-F1を選択します。次に話し方(抑揚・感情表現等)を1に、話す速さ・リズム・テンポを1に設定してモデルファイルのマージを実行します。
次にスタイルベクトルのマージを行います。スタイル一覧をロードしてから、スタイルのマージを実行してください。これでスタイルのマージができます。本来はスタイルのマージリストを編集する必要がありますが、今回は検証のため省略します。
最後に音声合成を実行して結果を聞いてみましょう!