見出し画像

Bert-VITS2使ってみた

Bert-VITS2

ちょっと話題になっていたBert-VITS2を使ってみました。

てきとうに感想と備忘録的なものが書いてあるだけ


便利な奴

個人的に一番便利だと思ったのは学習用データセット作成ツール音声のスライス。
Dataset.bat
を開くと使用できます。

これを使うと一本の長いwavファイルを切り分けてくれます。

例えば「寿限無、寿限無、五劫の擦り切れ、海砂利水魚、水行末、雲来末、風来末、食う寝る所に住む所、薮ら柑子のぶら柑子、パイポ、パイポ、パイポのシューリンガン、シューリンガンのグーリンダイ、グーリンダイのポンポコピーのポンポコナーの長久命の長助」の音声が録音されているwavファイルに音声のスライスを適用したら

「寿限無、寿限無、五劫の擦り切れ」
「海砂利水魚、水行末、雲来末、風来末」
「食う寝る所に住む所、薮ら柑子のぶら柑子」
「パイポ、パイポ、パイポのシューリンガン」
「シューリンガンのグーリンダイ」
「グーリンダイのポンポコピーのポンポコナーの長久命の長助」
に分けてwavファイルを保存してくれます。

実際に私が長々としゃべったものを録音したwavファイルを適用すると

これが

こう

使い方は書いてあるんで見てください。

ちなみにのDataフォルダ内のモデル名を冠したフォルダの名前モデル名が違うとエラーを吐きます。


音声の文字起こしの方も結構精度が高い。
ずんだもんに寿限無を喋らせたファイルを文字起こししてもらうとこんな感じ

001_ずんだもん(ノーマル)_寿限無、寿限無、五….wav|zu|JP|ジュゲム、ジュゲム、五行の擦り切れ……
002_ずんだもん(ノーマル)_海砂利水魚、水行末….wav|zu|JP|海砂利水魚、水行く末、雲来末、風来末、
003_ずんだもん(ノーマル)_食う寝る所に住む所….wav|zu|JP|クーネル所に住むところ、やぶらこうじのぶらこうじ。
004_ずんだもん(ノーマル)_パイポ、パイポ、パ….wav|zu|JP|カイポ、カイポ、カイポのシューリンガン
005_ずんだもん(ノーマル)_シューリンガンのグ….wav|zu|JP|シューリンガンのグーリンダイ
006_ずんだもん(ノーマル)_グーリンダイのポン….wav|zu|JP|風鈴台のポンポコPのポンポコなーの長久命の長助。

esd.list

便利ではあるけれど、少しダルポイントがあります。
inputとData内のmodel名を冠したフォルダ内のrawファイル両方に音声がないといけない

また、使ったときにRuntimeError: Library cublas64_11.dll is not found or cannot be loadedってエラーが出た場合

C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.1\bin\cublas64_〇〇.dll

の〇〇の部分を11にしないと動かない。


RVCと比較すると

喋りの本人感はRVCの方がある、処理対象音声ファイルの質が高い、または歌わせる用途ならRVCが強い

Bert-VITS2は処理対象音声ファイルの質に左右されないから言わせたいことがあるならBert-VITS2の方が強い
って感じ


備忘録てきな

インストールして一番最初に出てくるこれ↓
一度終了した後もう一度起動するにはApp.batを使用

Train.batのstep4は二回行うと絶対にエラーが出る


この記事が気に入ったらサポートをしてみませんか?