見出し画像

【RVC初心者向け】素敵な声に変換するために必要な設定の注意点・コツ

はじめに


この記事では、RVCを用いる際に、滑らかで違和感のない音声変換をするために必要な設定の注意点やコツなどについて説明しております。
例として、下記のサンプルボイスは実際に後述する設定値で変換したものとなっており、通常の会話だけでなく、歌唱も非常に高い精度になっています。


なお、音声変換に必要なアプリである、RVCとVCClientの導入は完了している前提の記事となりますので、導入がまだの方はこちらから導入していただくことをお勧めします。
記事の内容が古くなってきたため、最新版の導入とRVC学習方法についてまとめたものを書籍化しました。
unlimitedに載せているので、無料期間中にご一読ください。
同じ内容を有料記事にまとめているのでPCでみている方はこちらをどうぞ。
リアルタイム音声合成入門:RVCとVCClientの実践ガイド|生ゆっけ (note.com)

それでは、VCClientの各タブごとに重要な設定値に関わる内容について説明していきます。ここに記載のない項目については基本デフォルトのままで大丈夫だと思います。

①Sever Control 

概要-VCClient自体の起動や、使用する学習モデルの選択を担っているタブ
ここでは特に注意する事項はないので説明を省きます。

②Model Setting

概要-変換先の音声ファイルをVCClientにアップロードするタブ
・Default Tune
変換後の音の高低を設定する項目(男→女なら+12)後述するSpeaker Settingからでも変更可能
・index(.index)
学習元の声の特徴を司るファイル。後述するIndex Ratioに影響

③Speaker Setting

概要-音声変換の設定をリアルタイムで調整する項目
・Tuning
変換後の音の高低を設定する項目、こちらはリアルタイムで変更することが可能
・Index Ratio
学習元の声の特徴をどれだけ反映させるかの項目
ただし、数値を上げすぎると変換の精度が著しく下がるため、上げても0.3程にしておいたほうが無難

④Converter Setting

概要-変換時の精度やタイムラグに関わる項目
・Input Chunk Num
どこまで音声変換するか区切りの長さを決める項目
数値が高いほど変換精度がよくなるが、その分変換までのタイムラグも大きくなる。
・Extra data Length
音声を変換する際、入力にどれくらいの長さの過去の音声を入れるかの項目
こちらも、上げるほど変換精度が上がるが変換までのタイムラグも大きくなる。PCスペックにもよるが、32768程度が上限かも

⑤Device Setting

概要-入力デバイスと出力デバイスに関わる項目
・AudioInput
マイク付webカメラ等でマイクが複数ある場合、一番音質の良いマイクを設定することを忘れない。

⑥Labs

概要-複数の学習モデルを合成(マージ)させる項目。説明は割愛

⑦Quality Control

概要-音声の入出力に関わる項目
・Noise Suppresion
音声変換時、高低音域が不自然にカットされたり、余計なノイズの原因となる可能性があるため、すべてOFFでいいかも
・Gain Control
たび重なる検証の結果、InとOutは2:1の比率が一番良いと判明
・F0Detector
Harvest推奨

最後に

当アカウントは、RVCを利用する過程で得た知見をNoteにて備忘録として発表するほか、BoothにてRVC学習モデルの販売を行っております。冒頭に記載した学習モデル「HAL」を筆頭に今後も高品質なモデルを提供する予定ですので、ご覧いただけたら幸いです。

おまけ

サンプルボイス録音時の設定を公開するので、参考にしていただければと思います。

いいなと思ったら応援しよう!