【革命】リアルタイムボイチェンソフト「VC Client」でついに念願のカワボをてにいれたぞ!
時は来た。それだけだ。
2023年4月上旬頃、AIを活用した音声合成技術『RVC(Retrieval-based Voice Conversion)』が話題となっているのを見かけました。
「こりゃまたすげぇもんが出たな!」という驚きと同時に、自身の声を可愛くできる可能性に胸躍るオタク。
すでに使用手順を解説されている方も居たため、僕もさっそく試してみました。@omiz さんやGIGAZINEさんの記事を読むと、どんなもんか大体わかると思います。
なお、Twitterで指摘がありましたが、GIGAZINEさんの記事・動画では不備のある音声モデルデータが使用されているようでした。
後日修正されると良いのですが…僕自身実際に使ってみて、本来はもっとクリアでクオリティも高いことが実感できましたので、あらぬ誤解が広まらぬよう本記事を執筆することにしました。
2023/4/27追記:修正版について追記されてました
VC Clientを使ってみる
RVCを利用するにはいくつか方法がありますが、今回は手軽に使えそうな『VC Client』を使用することにしました。
VC Clientは、RVCの他にもMMVC、so-vits-svcなどの音声変換AIに対応していたり、リモートPCからの利用、Mac・Linux・Google Colaboratoryでも利用できるクライアントソフトです。超すごい。
秒速で可愛い声になりたい気持ちを抑えつつ、アバターなどの組み合わせも考慮し、Windowsマシンで事前ビルド済みのBinaryを利用することにしました。
ソフト起動までのざっくり手順は以下のとおりです。
WindowsのPyTorch(cpu,cuda)版をダウンロード&解凍
hubert_base.ptをダウンロード
start_http.batと同一ディレクトリに配置
start_http.batを実行
RVC向けクライアントを起動
VC Client起動までの準備ができたら、続いて音声モデルを用意します。
学習済みボイスモデルデータを利用する
冒頭で紹介した@omizさんの記事を見ると、発話音声(wavファイル)を用意して学習させる必要があるとの解説がありました。
自前で可愛い声のモデルデータを用意するのはなかなか大変ですね。また、他人の声を利用する場合は著作権・肖像権の問題なども絡むため、例えば著名人や声優さんの声を無断で学習させるのはよろしくありません。
かと言って、比較的規約の緩いずんだもんになるのは何か負けた気がするのでやめました。
そこでGIGAZINEさんの記事でも紹介されていた、学習済みボイスモデルデータを利用することにしました。
BOOTHで配布されていた中で、利用しやすくめちゃかわボイスなNORAさん(@yamijiki)のRVC向け学習済みデータを採用させていただきました。
学習済みボイスモデルデータ(pthファイル)のダウンロード
VC Client側でpthファイルをアップロード
Device Settingで音声入力/出力デバイスを選択
Server Controlのstartボタンをクリック
マイクに向かって喋ると変換された音声が出力されます。
なお、音声モデルデータにはPyTorch、ONNXなど複数の形式がありますが、利用したい形式のファイルのみアップロードすれば大丈夫です。
モデルデータアップロード時のエラーについて
バージョン1.5.2.4にて、モデルデータが認識されないエラーが発声した場合、以下を試してアップロードし直すと改善するかもです(issue報告あり)
half-precisionのチェックボックスのオン/オフを何度か切り替えて戻す
Default Tuneのスライダーを動かす
カワボにならんのだが?
Speaker Setting - Tuningの数値を調整することで、声の音程などが調整できます。以下、参考値です。
異性の場合:10~20程度
同性の場合:-5~5程度
これで陰キャオタクでも可愛い声が出せるようになります。
サクッと試してこのクオリティだったので、モデルデータそのままでも喋り方や発声方法に手を加えればもっと可愛くなれそうです。もちろん学習強化すれば普段の喋りで別人になれるはず。
ちなみに僕の地声は以下動画のような感じ。めちゃ低い声です。これがカワボになるのすごない?
僕のようにこれまでボイチェン諦めていた方も、ぜひ使ってみてください!
2023/4/28追記:雨病みいさんの学習データも試してみました!
2023/5/24追記:現在ショップページ非公開となっているようです
おまけ
TwitterでVC Client&NORAさんのRVC学習済みデータを使用させていただいた旨をつぶやいたら、NORAさんご本人からリプいただきました(すき
そしてなんと利用事例として、データ配布ページに動画まで掲載いただく形に(恐縮の極み…)
NORAさんのお声めちゃかわなので全人類聴いて沼に落ちてください。
現場からは以上です。
投げ銭すると翼が生えます。