見出し画像

VCclientを使って理想の声で配信したい

はじめに

皆さんこんにちは、普段はミリタリー系のゲームを中心に配信や動画投稿しているフランツィスカと申します。

 今回は最近話題のVCClientとRVCを使ったゲーム配信のやり方について解説します。出たばかりのソフトウェアなので情報が少なくて苦労している諸兄らの役に少しでも立てれば幸いです。

VCClientとはw-okada氏によるリアルタイムボイスチェンジャーで、RVCという方法で学習した.pthファイルをアップロードすることで、今までは地声できれいなボイチェンができなかった人でもどんな声にでも(限界はあるが)なれる夢のソフトです。VCClientは他にもMMVCDDSP-SVCなどの機械学習をもちいたボイスチェンジャーのプラットフォームになっており、デフォルトでいくつかの音声モデルが使えます。

あらかじめざっと注意点を言っておくと1PCで完結させるのは大体のPCでは難しいです。恐らくGPUが1つしか挿せない安いマザーボードを使っている人が多いと思うので2PC体制で配信を行う方法を主に解説します。また後程説明しますが難しいことをやればライン入力の項目は不要です。色々と設定が面倒&音声は有線じゃないとイヤッってひとが多いように思うのでライン入力を使うやり方を紹介します。

用意するもの

  1. ゲーム用PC (スペックは任意の物で)

  2. ボイチェン用PC (スペックは後述)

  3. ヘッドホンかイヤホン (スピーカーだとマイクに音はいらないようにするのが大変なので)

  4. 3.5㎜のオーディオケーブル (規格は変なものでなければよい)

  5. グラウンドループアイソレーター(必須)

  6. HDMI切替器 (1つのモニターで画面切り替えて使いたい場合)

  7. USB切り替え機 (キーボードやマウスが1セットで済むので)

  8. そこそこ音質の良いマイク (理由は後述)

  9. 理想の声の.pthファイル (音質にこだわる方は.indexファイルも)

  10. VCClientのダウンロード

1.ゲーム用PCについて

 これは皆さんすでにお持ちのPCか、自分の配信したいゲームに合わせたスペックの物でよいです。CPUをケチりすぎるとOBSを活かしきれないので古いi3とかは非推奨。またメモリは32GBあると配信をゲームPCで行いやすいです。 こっちのPCはグラボのメーカーはなんでもよいです。

2.ボイチェン用PCについて

 ここは絶対読んでから買ってください!! 
というのもここは遅延と品質に大きく影響するところだからです。
 最初にグラボのメーカーは必ずNVIDIAにすること。AMDでも動くバージョンはありますが性能に劣るとされています。特にこだわりがないならNVIDIA一択です。

 VCClientで0.3秒くらいの遅延に収めてCPUにも仕事をさせるモード(harvest)の場合、CPUはi7‐12700以上、GPUはRTX3060以上が良いと思います。これ以下になると遅延を増やすか品質を下げる(F0Detectorをdioにする)必要があります。しかしあくまでボイチェン専用なのであまり高級な機種にすると持て余してしまいますのでそこは各自考えること。
 私はケチってCPUをi5‐12400にした結果CPUの性能が足りなくてGPUをフルに使うモード(RMVPEという設定)にしていますが、やや遅延がふえましたのでVCClientのF0DetectorにRMVPEを使う場合はより高性能なグラフィックボードが必要になるとお考え下さい。アップデートで改善されつつありますが、音質と低遅延にこだわりたい方はスペックは高めの方が良いでしょう。 ツイッターで探すと他の人は結構つよつよPCでごり押してるか遅延を1s程度に妥協して活動している人も多いみたいです。

3.ヘッドホンかイヤホン

 スピーカーはマイクが音を拾ってしまったりしたときにメンドイので非推奨。音の知識はあるよという人は各自その対策をしてください。ヘッドセットは音質が悪いものが多いので非推奨。安いと耳が痛くなるけど上を見たらキリがないので私はJVCのHA‐RZ510を使ってます。

4.3.5㎜のオーディオケーブル

 家電屋やアマゾンで2mか好きな長さの物を買えばオケ。短いと後悔が発生しがちなのでそこだけ注意。

5.グラウンドループアイソレーター(必須)

 これがないと声を出したときにびりびりするノイズが入るので必須だが安いもので十分です。アマゾンで売ってます。

6.HDMI切替器 (1つのモニターで画面切り替えて使いたい

 これもあまりに安いと物理スイッチが変なところにあったりしてイライラの元なのできちんと手元スイッチがあるものを選ぶこと。私はUSBスイッチも兼ねた『サンワサプライ hdmi切替器 sm-kvm2whu』を使用しているが、今のところ不満はないです。ワイドモニターには使えないことも多いのでワイドモニター民には非推奨

7.USB切り替え機

6をケチった人向け。キーボードが2つもあると机が足りんて人はあると嬉しい。

8.そこそこ音質の良いマイク

これは何も何十万もするダイナミックマイクを買う必要はないですが、音声変換の精度に大きく影響しますので1000円とか数百円のノイズまみれのマイクは非推奨。ノートPCなら内臓マイクはおすすめしないのでやはり買った方が良い。目安は1万円くらいのUSBマイクか、オーディオインターフェイスがあるなら好きなものでよいです。

9.理想の声の.pthファイル

 これは.wavなどの音声ファイルからRVCによる訓練をブラウザでできる方法があるので理想の声がある方はその方法で訓練してください(後でまた解説します)。この時注意するべきは権利の侵害です。現行の法律には他人の音声を学習することを禁じたり、また元の声を持っている人に学習における使用を禁じる権利を明記した法律はないですが、今後整理されていくことが予想されます。余計なトラブルを起こしたくないのであれば使用許可がとってある音声を使いましょう。

 知人や声優さんに読み上げてもらうときはITAコーパスを使って1文章1ファイルにしてもらうと学習させやすいです。ノイズが少ない、声がはっきり聴きとれる高品質の音声ファイルが質の良いボイチェンには重要です。
 めんどーな方はデフォのモデルを使った上で使用規約をよく読んでお使いください。

10.VCClientのダウンロード

特に理由がなければ一番最新のバージョンをhttps://github.com/w-okada/voice-changerからダウンロードすること。グーグルドライブが使えなときが多いのでhuggingfaceからダウンロードするとよい。
 バージョンを間違えないように注意!

配線と設定

 音声のライン入力はこれを参考に、我々は音声だけ受け取るのでキャプボはいりません。
 後はHDMI切替器等は説明書の通りにすればよいです。ASIOにできる知識がある方はやると遅延が減ります、がMMEで困ったことがないので特段必要なことではないです。

 配線が終わったら後はVCclientとOBS等の配信ソフトで必要な設定をしてください。音声の入出力を間違えると音が出ません。
自分の変換した声が聴きたいときはOBSのモニター機能を使うとよいです。

 実はライン入力しなくてもstart_https.batで同じことができますが調べてもあまりやり方が出てこないので簡単なのはこっちだと思います。不具合起きてもこっちの方が対処しやすいし。


.pthファイルの作り方について補足

これを参考にしてください。音声ファイルを自分で用意する場合はITAコーパスを読んでもらったものが良いでしょう。学習回数は30~100epoch程度で十分です。100も要らんと思う。最近新しく作ったファイルは200でやったらクオリティが爆上げだったのでサンプルの質と量で変わるみたいです。できる限り学習元音声ファイルは高音質なものを使うこと、権利関係には気を付けること。特に勝手に人気声優さんの音声を勝手に使ったりすると炎上のもとですから、使うのであれば必ず使用契約なり許諾なり取ってください。
そんなもん取れない、コネがない時は素直にあきらめるか似た声の人を探してください。(実は沼にはまる危険性はあるがモデルのマージを使う手もある。私には無間地獄が見えるのでやりませんが)
 私は権利関係をクリアにしておきたかったのである声優さんと契約を結んで提供してもらった音声ファイルを使用しました。

 報酬等の交渉は頑張ってください。生成AI関連の話題は燃えやすいので権利に関して気を付けておくに越したことはないです。

調整やちょっとしたコツ

ちょっとしたコツ集です。

1.音声の誤変換がひどいとき
→ゲインをあげるとよくなる時がある

2.ノイズはNVIDIA Broadcastを挟んでしまうのが一番良い。変換後の音声にも意外と効果があります。

3.VCclient公式のマニュアルは長くないので古いバージョンであっても読んでおくこと

4.PCが不幸にもスペックが足りない時は遅延を許しましょう。またはF0をdioにすると音質は下がりますが遅延は減ります。crepeは使ったことないからわからない。

5.相性問題
→実は作成したモデルでうまく変換されるかは相性もあります。傾向としては声のピッチが近い、滑舌が近い、発話仕方が似ていると相性が良く、その逆は難しいことが多いです。私みたいな普段デスボイスの人が三森すずこになるのはなかなか難しいです。DQ9のさえずりのみつのようにうまくはいきません。しかしここで諦められない人は、VSTプラグインに詳しい人であれば入力音声を加工してVCclientに入れるということができると思うので是非やってみてください。報告お待ちしてます。

最後に

ざっくりとですがVCclientを使った2pcゲーム配信のやり方についてさっくりと解説いたしました。もともとOBSやピッチシフトのボイチェンいじっていた人なら簡単だと思いますがそうじゃない人も多いでしょうからわからないことがあったらコメントにて質問ください

 なんども口酸っぱく言いますが権利関係はクリアにしておくこと、コーパスを使うとき、公開されている音声を使うときには使用規約を守ることです。
 君だけがsnsで燃えるだけならまだいいですが、場合によってはこのような技術自体を開発することが禁止される可能性もないとは言えません。みんなが楽しめる使い方をしてくださると界隈の発展にもつながるので権利を守って楽しくボイチェンしましょう!!

ハートマークを押してもらうとやる気が出ます!よければ押してね!

Franziska von RIchthofen 2023/7/25


この記事が参加している募集

AIとやってみた

この記事が気に入ったらサポートをしてみませんか?