RVCで萌え声になった話

2023年5月21日 07:40

えー、なんかRVCとかいうボイスチェンジャーが簡単に使えるツールが出たぜ！みたいな記事を読んだので、「ま、正味たいしたことないやろ」と思いつつ試しみたら、これが思いの外オモイノホカだったので、とりあえず聴いていただきたい。

ガチ恋みずみちゃん pic.twitter.com/asdtCAPiCM
— みずみちゃん (@mizumi3) May 18, 2023

ガチ恋おはようみずみちゃん pic.twitter.com/gxZHr1CNiU
— みずみちゃん (@mizumi3) May 19, 2023

今日のおはようガチ恋みずみちゃん pic.twitter.com/PmT1P37Mb8
— みずみちゃん (@mizumi3) May 20, 2023

断っておくが筆者は普段Twitterで14歳の美少女などと嘯いているものの、実際はただの気持ち悪いおっさんです。（※みずみちゃんは14歳の美少女です）
それがどうだろう、簡単な設定で普通に喋っているだけでかなり自然にかわいい声になっているのではないだろうか。
うむ、確かに若干もにょったりケロったりしてるとこもなくもないが、ぼくがこれまで試した中ではダントツで自然である。

ぼくはボイスチェンジャーには
①入力した音声にエフェクトをかけて出力
②入力した音声をテキストに変換してそれをボイロなどで出力
③ボイスチェンジャーAI
の3種類があると思っている。

①の場合、入力する音声…つまり元の声が“男が普通に話す感じ”だと、かわいいとされる音域まで音を高くするとかなりガビガビになってしまう。
それを緩和するため、入力する音声もいわゆる接客する時のような高い声を無理に出す必要があり、それなりに訓練を要するし、そもそも疲れるという問題がある。
さらには地声によってはそれでも上手くいかなかったりする。
ぼくも上手くいかなかった。
この方法でやっててかわいい声が出せているVtuberはマグロナちゃんが有名だろうか。（かわいいよね）

②の場合は、入力音声をテキストに変換する段階で誤字が発生したり、矢継ぎ早に喋ったりすると変換してくれない部分が発生したりする。
youtubeなどで自動翻訳機能を使った人はわかると思うが、あんな感じ。
ボイロ自体がまだ自然な発話とは言い難いし、2段階の変換をかけてるので遅延がすごい。
この方法でやっているVtuberはのらきゃっとさんが有名だろうか。（かわいいよね）

そして③、RVC。
RVCは Retrieval-based Voice Changer の略らしい。
りとらいばる…べーすど…？
意味はわからんがなんだか凄そうだ。
AIにベースとなる音声を学習させることで、入力された音声に近い音を学習音声から選び、いい感じに繋げてくれる…まあ多分そんな感じだと思う。（よくわかってない）
なんか凄そうなことをやってるみたいだが、意外と軽量で遅延も600msくらいとそこまでではない。
それで前者ニ方式よりかなり自然。
とまあ良いことばかり言ったんですが、この方式にもいくつか問題がありまして…。
第一に、環境ノイズも音声に変換されてしまうこと。
マウスのクリック音だとか、キーボードのカタカタ音等の音が「あー」とか「お…」とかの声になってしまう。
まあこれは極力環境音を拾わないようにマイクを設定するなりすればいいのだが、一番の問題が次。

えっと、ぼくがこのRVCを「これすごくね？」と思ったある動画があります。
それがこれ

ご存知、おめシスのレイちゃんが、ぽこピーのピーナッツくんの声をRVCに学習させ、ドッキリを仕掛けるという内容だが、このRVCによるピーナッツくんの声があまりにも完璧にピーナッツくんなのだ。
凄いぜ。

凄いんだけど…ご覧の通り、このあまりにも元の声を再現できてしまうところがボイスチェンジャーAIの問題でもある。
そう、本人の許可なく声を学習させ何かと悪用するわっりー連中がいるのだ。
例えば有名声優の声を学習させ、それを勝手に使ったり、金儲けに使うのだ。
流石にちょっと違和感があるので声優さんの仕事を奪うとかまではいかないだろうが、とにかく勝手に商品にされてたら大問題である。
ちなみにぼくは後述するが無料の学習済みデータを使っているのでご心配なく。

ではここからRVCの使い方について記述しようと思う。
元の声と学習した声で相性とかあるらしいので、他の人が試した時どんな声になるのか興味があるというのもあるのでね。
とは言っても細かいところは外部サイトに丸投げします。

さてまず用意するのは…パソコンとマイク、以上。
次のサイトを参考にしていただき、VC Clientをダウンロードして展開してください。
なんか展開後6GBくらいあって結構時間掛かります。

次にぼくが複数試した中でこれ最高と思ったこの学習済みデータ『NORA 少女・Girl』をダウンロードしてください。

あとはさっきのサイトを参考に学習済みデータを指定して変換開始してください。
簡単に言うと、VC Clientを起動して使用する学習済みデータを指定してアップロード、default tuneを+8～12に設定し、入力デバイスと出力デバイスを設定してスタート。
これだけ。
ね、簡単でしょ？
こ…これが…ワイ？
簡単過ぎる…あっけなさ過ぎる…。
調整も default tune とかいうピッチ？みたいな項目だけだし…。
さあ皆もかわいい声になって情緒とかめちゃくちゃになりましょう。

ちなみにぼくの環境だと何故かonnxファイルへの変換はエラーが出てできなかったんですが、使用に問題はないのでしなくていいです。（遅延が少なくなるらしいが）
ぼくの場合、default tune を8にしてます。
あ、あと、マイクを繋いでないとエラーが出るらしいので繋がってなかったり設定でマイクを殺してるひ人は繋いでからクライアントを起動しましょう。

この記事が気に入ったらサポートをしてみませんか？