RVC WebUIで音声モデルを学習させる(画像付き)

1. RVCをインストールする

1-1. ファイルをダウンロードする。

下記のHugging FaceからRVC-beta.7zをダウンロードして解凍する。

1-2. WebUIを起動する

go-web.batを開く。
コマンドプロンプトが起動し、時間がたつと、WebUIがブラウザに開かれます。

自動でブラウザに表示されるUI。


2. モデルを作成する

2-1. モデルを作成する画面へ移動します。

タブのナビゲーションから、「训练 (トレーニング)」を選択します。

2-1. Step1に生成されるファイルについての情報を入れます。

输入实验名(モデル名を入力する)に、生成されるモデルの名前を入力します。

その他の値は、好みで変更します。

目标采样率 (ターゲットサンプリングレート)
模型是否带音高指导(唱歌一定要,语音可以不要) (ピッチガイダンス付きかどうか(歌唱は必須、音声は省略可))

2-2. Step2aで学習させるファイルをインポートします。

输入训练文件夹路径 (トレーニングフォルダーパスを入力) に、トレーニングに使う音声ファイルが入ったフォルダのパスを入力します。

「处理数据」ボタンをクリックし、インポートします。
「输出信息」に、インポートしたファイル名と一緒に、「end preprocess」が表示されたらOK

2-2. Step2bで学習の環境をインポートします。

使用しているグラフィックボードとCPUについて入力します。
グラボについて入力されているので、CPUについて入力していきます。

Ctrl + Shift + Esc を押して、タスクマネージャーを開きます。
タブメニューのパフォーマンスを開きます。
 
「論理プロセッサ数」の数字を確認します。

「提取音高使用的CPU进程数」に確認した値を入力します。

2-3. Step3トレーニングの設定を入力してトレーニングを開始

左上から説明していきます。

save_every_epoch(保存频率) : 学習中の保存頻度です。特に変更は不要かと
total_epoch(总训练轮数はどれだけ学習させるかを表します。個人で試した範囲だとセリフ集100個で、3~40ぐらいが良い感じがしました。
batch_size : どれだけ1度で学習するかです。増やすと学習が早く終わりますが、増やしすぎるとエラーが出ました。絵などと違ってそこまで時間が変わらないので、そんなに増やさなくても良いかも?
他はデフォルトで基本問題ないはずです。

数値が決まったら「一键训练」(ワンクリックトレーニング)ボタンを押します。


3. モデルを確認する

モデルの学習が終わると、RVC-betaフォルダのweightsフォルダに、2-1で設定したファイル名で保存されています。


以上でモデルの学習方法は終わりです。

モデルの学習が簡単すぎて、モデルの学習素材を集めて作る方が大変だなーという感じでした。

いいなと思ったら応援しよう!