【革命】リアルタイムボイチェンソフト「VC Client」でついに念願のカワボをてにいれたぞ！

星影

2023年4月23日 21:19

時は来た。それだけだ。

2023年4月上旬頃、AIを活用した音声合成技術『RVC（Retrieval-based Voice Conversion）』が話題となっているのを見かけました。

「こりゃまたすげぇもんが出たな！」という驚きと同時に、自身の声を可愛くできる可能性に胸躍るオタク。

RVCならワイでもバ美声いけるんか？
— 星影 (@unsoluble_sugar) April 12, 2023

すでに使用手順を解説されている方も居たため、僕もさっそく試してみました。@omiz さんやGIGAZINEさんの記事を読むと、どんなもんか大体わかると思います。

なお、Twitterで指摘がありましたが、GIGAZINEさんの記事・動画では不備のある音声モデルデータが使用されているようでした。

ですねー。開発者としてさすがにきついので、GIGAZINEのお問い合わせフォームから連絡しておきました。

一方で、ピッチレスのモデルの対応も進めねばと思った次第です。#VCClient https://t.co/r90i6taNKG
— wok! (@DannadoriYellow) April 23, 2023

~~後日修正されると良いのですが…~~僕自身実際に使ってみて、本来はもっとクリアでクオリティも高いことが実感できましたので、あらぬ誤解が広まらぬよう本記事を執筆することにしました。

ダウナー系はいいぞ#VCClient pic.twitter.com/AMdkclib8o
— 星影 (@unsoluble_sugar) April 27, 2023

2023/4/27追記：修正版について追記されてました

VC Clientを使ってみる

RVCを利用するにはいくつか方法がありますが、今回は手軽に使えそうな『VC Client』を使用することにしました。

VC Clientは、RVCの他にもMMVC、so-vits-svcなどの音声変換AIに対応していたり、リモートPCからの利用、Mac・Linux・Google Colaboratoryでも利用できるクライアントソフトです。超すごい。

秒速で可愛い声になりたい気持ちを抑えつつ、アバターなどの組み合わせも考慮し、Windowsマシンで事前ビルド済みのBinaryを利用することにしました。

ソフト起動までのざっくり手順は以下のとおりです。

WindowsのPyTorch(cpu,cuda)版をダウンロード＆解凍
hubert_base.ptをダウンロード
start_http.batと同一ディレクトリに配置
start_http.batを実行
RVC向けクライアントを起動

VC Client起動までの準備ができたら、続いて音声モデルを用意します。

学習済みボイスモデルデータを利用する

冒頭で紹介した@omizさんの記事を見ると、発話音声（wavファイル）を用意して学習させる必要があるとの解説がありました。

自前で可愛い声のモデルデータを用意するのはなかなか大変ですね。また、他人の声を利用する場合は著作権・肖像権の問題なども絡むため、例えば著名人や声優さんの声を無断で学習させるのはよろしくありません。

かと言って、比較的規約の緩いずんだもんになるのは何か負けた気がするのでやめました。

そこでGIGAZINEさんの記事でも紹介されていた、学習済みボイスモデルデータを利用することにしました。

BOOTHで配布されていた中で、利用しやすくめちゃかわボイスなNORAさん（@yamijiki）のRVC向け学習済みデータを採用させていただきました。

学習済みボイスモデルデータ（pthファイル）のダウンロード
VC Client側でpthファイルをアップロード
Device Settingで音声入力/出力デバイスを選択
Server Controlのstartボタンをクリック

マイクに向かって喋ると変換された音声が出力されます。

なお、音声モデルデータにはPyTorch、ONNXなど複数の形式がありますが、利用したい形式のファイルのみアップロードすれば大丈夫です。

もしかしたら知らない人、多いかもしれませんが、（というか使い方説明してないお前が言うなですが、）PyTorchのモデルとONNXの両方入れる意味はほぼないです。使いたい方だけuploadすればいいです。両方入れるとアップロードの時間が無駄です。#VCClient
— wok! (@DannadoriYellow) April 23, 2023

モデルデータアップロード時のエラーについて

バージョン1.5.2.4にて、モデルデータが認識されないエラーが発声した場合、以下を試してアップロードし直すと改善するかもです（issue報告あり）

half-precisionのチェックボックスのオン/オフを何度か切り替えて戻す
Default Tuneのスライダーを動かす

カワボにならんのだが？

Speaker Setting - Tuningの数値を調整することで、声の音程などが調整できます。以下、参考値です。

異性の場合：10～20程度
同性の場合：-5～5程度

これで陰キャオタクでも可愛い声が出せるようになります。

サクッと試してこのクオリティだったので、モデルデータそのままでも喋り方や発声方法に手を加えればもっと可愛くなれそうです。もちろん学習強化すれば普段の喋りで別人になれるはず。

ちなみに僕の地声は以下動画のような感じ。めちゃ低い声です。これがカワボになるのすごない？

僕のようにこれまでボイチェン諦めていた方も、ぜひ使ってみてください！

2023/4/28追記：雨病みいさんの学習データも試してみました！

2023/5/24追記：現在ショップページ非公開となっているようです

おまけ

TwitterでVC Client&NORAさんのRVC学習済みデータを使用させていただいた旨をつぶやいたら、NORAさんご本人からリプいただきました（すき

星影さん　動画付きでのご紹介ありがとうございます✨
とてもかわいいです自分じゃ扱いこなせなくて
人が使うとどうなるのかがとても気になっていました////
— NORA💌´-RVCデータ無料配布中！！ (@yamijiki) April 23, 2023

そしてなんと利用事例として、データ配布ページに動画まで掲載いただく形に（恐縮の極み…）

NORAさんのお声めちゃかわなので全人類聴いて沼に落ちてください。

現場からは以上です。

この記事が参加している募集

#AIとやってみた

28,308件

投げ銭すると翼が生えます。