Bert-VITS2使ってみた
Bert-VITS2
ちょっと話題になっていたBert-VITS2を使ってみました。
てきとうに感想と備忘録的なものが書いてあるだけ
便利な奴
個人的に一番便利だと思ったのは学習用データセット作成ツールの音声のスライス。
Dataset.batを開くと使用できます。
これを使うと一本の長いwavファイルを切り分けてくれます。
例えば「寿限無、寿限無、五劫の擦り切れ、海砂利水魚、水行末、雲来末、風来末、食う寝る所に住む所、薮ら柑子のぶら柑子、パイポ、パイポ、パイポのシューリンガン、シューリンガンのグーリンダイ、グーリンダイのポンポコピーのポンポコナーの長久命の長助」の音声が録音されているwavファイルに音声のスライスを適用したら
「寿限無、寿限無、五劫の擦り切れ」
「海砂利水魚、水行末、雲来末、風来末」
「食う寝る所に住む所、薮ら柑子のぶら柑子」
「パイポ、パイポ、パイポのシューリンガン」
「シューリンガンのグーリンダイ」
「グーリンダイのポンポコピーのポンポコナーの長久命の長助」
に分けてwavファイルを保存してくれます。
実際に私が長々としゃべったものを録音したwavファイルを適用すると
これが
こう
使い方は書いてあるんで見てください。
ちなみにのDataフォルダ内のモデル名を冠したフォルダの名前、モデル名が違うとエラーを吐きます。
音声の文字起こしの方も結構精度が高い。
ずんだもんに寿限無を喋らせたファイルを文字起こししてもらうとこんな感じ
便利ではあるけれど、少しダルポイントがあります。
inputとData内のmodel名を冠したフォルダ内のrawファイル両方に音声がないといけない
また、使ったときにRuntimeError: Library cublas64_11.dll is not found or cannot be loadedってエラーが出た場合
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.1\bin\cublas64_〇〇.dll
の〇〇の部分を11にしないと動かない。
RVCと比較すると
喋りの本人感はRVCの方がある、処理対象音声ファイルの質が高い、または歌わせる用途ならRVCが強い
Bert-VITS2は処理対象音声ファイルの質に左右されないから言わせたいことがあるならBert-VITS2の方が強い
って感じ
備忘録てきな
インストールして一番最初に出てくるこれ↓
一度終了した後もう一度起動するにはApp.batを使用
Train.batのstep4は二回行うと絶対にエラーが出る
この記事が気に入ったらサポートをしてみませんか?