見出し画像

おすすめのRVCv2モデル6選

1. 概要

前回のnote(https://note.com/kouemon_v_t/n/n9cb1c9cac890)でVCClient+RVCモデルでのバ美肉ボイスチェンジについて触れました。
今回のnoteでは、実際にVCClientで試してみたおすすめのRVCモデルについて触れていこうと思います。
Youtube配信などで試しにちょっとだけボイスチェンジャーを使ってみたい、というのであれば、RVCv2モデルを自作するよりはBOOTH等で学習済みのRVCv2モデルを入手したほうが良いと思います。
このnoteではその考えに至った理由と、おすすめのRVCv2モデルについて触れてみたいと思います。


2. 自作より購入した方が良いと思う理由

2-1. 時短のため

一番の理由は、単純に時短になるから、です。
RVCモデルを自作するためには、RVCモデル作成のための環境づくりと知識と技能の習得が必要になります。
また、学習元データの用意にかかる時間や、モデル自体の作成にかかる時間も考慮する必要があります。
そのため最初は既存の学習済みのRVCモデルを試してみて、それでは満足できなくなってきてから自作やオーダーメイドを試してみたほうが良いかと思います。

2-2. まだAI技術は黎明期と言えるような状態なため

AI技術は凄まじい勢いで進化しているため、今後も新たに技術や規格が出てくる事が予想されます。
使いこなすだけでも大変なのに、モデル作成までアップデートしていくのはかなりの労力が必要そうです。

3. おすすめのRVCv2モデル

・ライブ配信における制約について

おすすめのRVCv2モデルの紹介の前に、選定基準というか制約について述べておこうと思います。
私の場合は、ライブ配信でのリアルタイムボイスチェンジが目的なので許容できるレイテンシー(遅延)が制約としてあります。
レイテンシーとライブ配信での違和感の感じ方ついて、以下に検証してみました。
※あくまで個人の感想となります。
 
レイテンシーとライブ配信時で感じる違和感】

  • 3秒以上: 配信画面とのズレが大きく違和感が大きい。ライブ配信は厳しそう。

  • 2秒程度: ぎりぎりライブ配信で利用できる。いっこく堂さんの「声が遅れて聞こえるよ」というネタみたいな感じにはなる。

  • 1秒以下: 理想はここ。欲を言えば0.5秒程度まで抑えたいところ。声の品質を保つのが難しい。

・利用規約と商用利用の記載の有無について

RVCモデルを選ぶ際には、基本的に利用規約の記載と、商用利用可の記載があるモデルが良いかと思います。

・検証で設定したVCClientの各種設定値

レイテンシーを2秒以下に抑えつつも品質を保てるようにするには、CHUNKは256~320辺りが良さそうです。
色々検証した結果、私の環境では以下の設定値でVCClientを利用してます。
※あくまで私の環境で検証した最善の設定値です。ここは環境によってかなり異なると思うので、あくまでご参考値となります。
※TUNE値は各項に記載してます。
※レイテンシー重視のため、各RVCモデルの推奨値とは異なる設定で検証している場合があります。

GAIN:
 IN:  1.5
 OUT:    8
INDEX: 0.8 ※0.6以下だと誤変換が多い印象です。
NOISE:  
 Echo:  Off  ※特に意味なく外してます。
 Sup1:  On  ※入力音声にノイズ除去処理をしてないためOnにしてます。
 Sup2:  On
F0 Det:  rmvpe ※GPUがNVIDIAのため。
S.Thresh:  0.00015 ※数値が高いと語尾が消える事があったため。
CHUNK:  320 ※256だと若干ガビガビ声になることがあったため。
EXTRA:  13,1072 ※低いと誤変換が多くなる印象です。
GPU:  NVIDIA Geforce RTX 4090(24GB)
AUDIO:  client ※バイナリ版と異なりserverが選べなかったため


・おすすめ①:最高品質 RVCv2モデル「☆ミネ」ASMR対応

可愛くて清楚で澄んだ感じの声質です。
TUNEを下げれば中性的な声質にもできるので、幅広い好みに応えられそうに感じました。
使ってみて最初に感じたのは、非常に高精度で音声の変換ミスもほぼない、ということでした。感覚的な表現になりますが「スッ」と声が変換されます。他のモデルと比較しても違いが実感できました。
また、CHUNKを256~360と低く設定しても良い感じに声が出ます。
私のようにライブ配信での利用が目的で、低レイテンシーかつ高品質なRVCv2モデルが欲しい人という方は、このRVCv2モデルを選んでおけば困ることはなさそうです。
また、ASMR対応と言うだけあり細かな息遣いまで感じられました。
ASMRをしたい場合はWEB UIによる変換が推奨との事なのですが、 ぶっちゃけVCClientでそのまま利用しても全然いける気がします。
あるいはWEB UIを使えば、これ以上の品質になるってことなのかな?
手が空いたらどっかで検証してみたいですね。

・最高品質 RVCv2モデル「☆ミネ」ASMR対応
 https://sumireyoko.booth.pm/items/5972324

・開発元BOOTH:スミレさん
 https://sumireyoko.booth.pm/

以下はレイテンシー(遅延)を2秒以内に抑えるため、CHUNKを320にして利用しています。
またTUNEは、女性声になる範囲の真ん中辺りとなる12を設定してます。

以下はTUNEを女性声になる範囲の高音域となる15に設定してます。

以下はTUNEを女性声になる範囲の低音域となる10に設定してます。
個人的にはこの辺りの音域が好みですね。


・おすすめ②:最高品質RVCモデル「☆クキコ」日本語&英語対応

クールでカッコイイ感じの声質で、☆ミネと同じ作者であるスミレさんが開発されているモデルです。
☆ミネと同じく非常に高精度で音声の変換ミスもほぼなく、CHUNKを256~360と低く設定しても良い感じに声が出ました。
ライブ配信での利用が目的で低レイテンシーかつ高品質なRVCv2モデルが欲しいという方に向いているかと思います。
若干ハスキー感じなので私好みの声です。☆ミネとは気分や状況によって使い分けて使うのが良いかなと思いました。

・最高品質RVCモデル「☆クキコ」日本語&英語対応
 
https://sumireyoko.booth.pm/items/5519528

・開発元BOOTH:スミレさん  
 https://sumireyoko.booth.pm/

以下はTUNEを13に設定してます。


・おすすめ③:【v2対応済・商用利用可・歌唱対応】RVCボイスモデル「FUYU」

クールで中性的な感じで、実に私好みの声質です。
コスパもかなり良いのですが、モデルの想定CHUNK値は高めのようなのでCHUNK320付近では稀に声の変換ミスが起きることがありました。
※他の設定やPCスペック等の問題かもです。
作者の方の解説動画内ではCHUNKを960に設定されており、その設定で使用すれば声の変換ミスは無くなるのですが 、レイテンシーがだいたい4秒弱くらいになります。そのためこの設定ではライブ配信は厳しそうです。
滑舌に気をつければCHUNK320付近でも変換ミスを抑えられると思うので、ライブ配信でも実用に耐えうると思います。
ただ、どちらかと言うと歌みた動画や解説動画の作成に利用する方が良いかもしれません。

・【v2対応済・商用利用可・歌唱対応】RVCボイスモデル「FUYU」  
 https://namayukke.booth.pm/items/4868068

・開発元BOOTH:生ゆっけさん
 https://namayukke.booth.pm/

以下はTUNEを13に設定してます。


・おすすめ④:【v2対応済・商用利用可・歌唱対応】RVCボイスモデル「CITRUS」

中性的でハスキーかつ澄んだ声質で、色気のある声色からボーイッシュな少女の声まで幅広く対応できます。
FUYUモデルの作者である生ユッケさんが開発されてます。

個人的に、この声質は、だいぶ控えめに言って、どちゃくそ大好きです。

好みのド真ん中すぎるんだわ。

FUYUと同様にコスパはかなり良いのですが、CHUNK320付近では若干掠れる事があるようです。
※他の設定やPCスペック等の問題かもです。
作者の方の解説動画内(※動画内のモデルはFUYUでした)では CHUNKを960に設定されており、その設定で使用すれば掠れる感じも無くなるのですが、 やはりレイテンシーは4秒弱になってしまいます。そのためこの設定ではライブ配信は厳しそうです。
滑舌に気をつけてゆっくりめに喋れば、CHUNK320付近でも掠れを抑えられると思うので、ライブ配信でも実用に耐えうると思います。
ただ、どちらかと言うと歌みた動画や解説動画の作成に利用する方が良いかもしれません。

・【v2対応済・商用利用可・歌唱対応】RVCボイスモデル「CITRUS」
 https://namayukke.booth.pm/items/5654517

・開発元BOOTH:生ゆっけさん
 https://namayukke.booth.pm/

以下はTUNEを13に設定してます。


・おすすめ⑤:【rvc v2最高品質モデル. 「咲.saki」歌唱対応】

可愛くも優しい感じの癒し系の声質です。
CHUNKの推奨値は384~576ですが、CHUNKは320でも問題なく利用できました。
声の変換も滑らかで、歌ってる時も気分良く歌えます。
感覚的な表現になりますが、感情の機微を声に乗せやすいというか、声が良い感じにぬるっと伸びるというか、そういった不思議な印象を得ました。
ライブ配信だけでなく、歌みた動画や解説動画の作成も高品質にできそうですね。

・【rvc v2最高品質モデル. 「咲.saki」歌唱対応】
 https://voicelabo.booth.pm/items/5359222

・開発元BOOTH:Voice Laboさん
 
https://voicelabo.booth.pm/

以下はTUNEを13に設定してます。


・おすすめ⑥:【Beatrice用学習データ同梱】RVC学習済データ せいらちゃん

可愛く幼い感じの声質です。

たぶんコスパは最強格です。

CHUNKの設定は320以下の256や128で使っても声の変換ミスはほぼありませんでした。かなりの低レイテンシーでも利用ができそうです。
※さすがに低CHUNKだと若干ロボロボする感じではありますが、全然許容範囲内だと思います。
CHUNK低めでの低レンテイシーなライブ配信や、CHUNK高めでの歌みた動画作成など、割と万能になんでもできそうです。

・【Beatrice用学習データ同梱】RVC学習済データ せいらちゃん 
 https://twinklemilky.booth.pm/items/5027893

・開発元BOOTH:ミルキーさん
 https://twinklemilky.booth.pm/

以下はTUNEを13に設定してます。


4. 感想:なにげに嬉しかったこと

軽いノリで始めたボイスチェンジャーの調査だけど、
最終的に女声で女性の歌を歌えたのは良い思い出になりました。

子供の頃は、女声で女性の歌を歌ってみたいと思っていたものだけど、
つい先日まで完全に忘れてました。

忘れた頃にふと夢が叶うとは。
なんとも不思議で楽しい時代になったものですね。

BOOTHでは、今回ご紹介させて頂いたRVCモデル以外にも様々なモデルが売られています。目を通すだけでも楽しいかと思いますので、まだご覧になられたことがない方は是非見てみてください。
また、他にもおすすめのRVCモデルやボイスチェンジャーがあるよ!って方は、教えて頂けるとうp主が喜びます。


この記事が気に入ったらサポートをしてみませんか?