※1/16 更新済【RVC】AIで推しの声(風)を作ろう！(音声学習から歌声変換まで) 有料共有も！

うえダくん

2023年6月18日 17:29

※RVC 2の作り方・有料記事については、随時追記して参ります！

男女限らずヲタ活をしていると『ああ〜この曲推しが歌ってくれたら幸せなのになー！』とおもったことありませんか？

2次元でも3次元でも好きな音楽や流行りの楽曲を推しが歌う...

そんな夢のような "もしも" が AI技術を用いて再現出来るようになっています！

実際に平野紫耀くんをイメージしたAIモデルを作ってオリジナル楽曲の歌声を変換した動画

本記事は Google colab のプログラム(RVC) を用いて歌声を変換する方法を動画を用いて記載しております！

以下の点を全て ''了承なされた場合" のみ、利用方法を正しく守りご利用下さい。

また有料記事を購入して頂くと、

作業の中で学び得た制作のポイントと実際に制作したAIモデルのデータをダウンロードすることが出来ます。記事と合わせてご利用下さい。

※2024.01.16 に有料記事にて、特設LINEグループのほど発足致しました。

【行う前の絶対のお約束】

・このプログラムから発生しますトラブル等、今後起こりうる全ての問題や事故・犯罪などに置いての責任は、全て御自身(利用者様)の責任は負いかねますことをご了承下さい。
・作業によって起こりうる、電気料金・通信料等、プログラム使用料等は、全て御自身(利用者様)の責任となりますことをご了承下さい。
・作業中やそれらに取り組むに当たって不安な点や気になること、分からない事がある場合はすぐに作業をお辞め下さい。
・プログラム中にエラーが出たら料金等発生致します場合やユニット数が無くなり今後作業が出来なくなる場合が御座います。その場合は、ウィンドウを完全に閉じるか、セッションを切断/削除を行って下さい。
・いかなるクレームそれら同様の行為等は受け付けませんので、ご了承頂きました場合のみ、ご利用下さい。
・あくまで技術の共有です。必ず私的利用の範囲で行って下さい。
・こちら簡易的な使い方になりますので、質問等はお控え下さい。後日質問等はオープンチャットにてアナウンスさせて頂きます！
・参考動画の内容、以下の手順を最後までしっかり読んでからの利用ということ。転用・改ざんは禁止ですので、それらをご了承頂きました場合のみ、ご利用下さい。

【RVCの使い方: 動画マニュアル解説付き】

※RVC2 については下の有料購入の方または別記事にて紹介しています。

今回の参考動画 1
https://youtu.be/PHmePSSKD88

今回の参考動画2
https://youtu.be/a1bxCohWQEA

今回の参考動画 3
https://www.youtube.com/watch?v=8ms6INlfwtg

今回の参考動画 4
https://vt.tiktok.com/ZSLFX9KtC/

参考動画3-4は、海外の方の動画も参考にしておりますので、
止めながら作業の参考にしてください！✨

【AIモデリングに必要なもの】

・PC (CPU8〜16が理想)
・Google アカウント
・Google Chrome (ソフトウェア/アプリ)
・学習させたい音声 (歌声のみ wav.を 10〜30つ 10秒から30秒程度)が入ったフォルダ
・学習させたい音声 (歌声のみ wav.を 10〜30つ 10秒から30秒程度) の圧縮ファイル .zip
・歌わせたい音源 (歌声のみ wav.)

【ステップ1】音源の準備

1 Google アカウント作成/ログインする

本技術は Googleのオープンリソース『Google colab』の海外の方が制作したプラグ(プログラミング)を利用します！利用には、Google アカウントが必要になるので、アカウントを制作して下さい。

※Googleアカウント作成・Googleドライブ・Google colab こちらは基本的に無料ですが、お使いの端末・サービスによって料金が発生します可能性があります為、しっかり確認して場合のみご利用下さい。

2 ログインしたGoogleアカウントから "Googleドライブ" を開く

アカウントの制作が完了したら、Googleドライブと検索して『ドライブを開く』から利用を開始します！

▼ Googleドライブはこちらから ▼
https://www.google.com/intl/ja/drive/

今回使うプログラムは、よくエラーを起こす印象があるので、相互関係が高い Google Chrome (検索エンジン/アプリ/ソフト)を使うことを推奨します！

利用が開始されるとデータがアップロード(保存)出来るようになるので、マイファイルに『新規フォルダを作成』をして名前を『RVC』に名前を変えましょう。

変更が完了したら、そこに学習させたい音声 (歌声のみ wav. を10〜30以上 10秒から30秒程度) をフォルダと圧縮したデータ(zip)の2つをアップロードします！

ポイント: 歌声のみのデータの作り方は『ボーカルリムーバー』と検索して利用出来るサービスで作ることができます！プログラムでは 歌声のみを学習させなくてはいけないので、ここで楽器の音を無くした音源にします。

僕はアプリ等を利用していますが、ネットのサービスでは回数の制限の中で利用出来ますので、是非御自身の使いやすいサービスでご用意頂けましたら想います！

ボーカルリムーバー (AI) (10分以内 - 1日1回有料プランあり)
https://vocalremover.org/ja/

X-munus (7分以内 - 1日3〜5回程度有料プランあり)
https://x-minus.pro/ai

VocalExtractor (iPhone app 買い切りで無制限)
https://apps.apple.com/jp/app/vocal-extractor-%E3%82%AB%E3%83%A9%E3%82%AA%E3%82%B1%E3%83%A1%E3%83%BC%E3%82%AB%E3%83%BC/id1438806137

3 アップロード完了後、ファイルと圧縮ファイル 2つを右クリックにて『共有 ▶︎ 一般的なアクセス』を"リンクを知っている全員" に変更する！

こちらをしないとエラーになる確率が上がるので、必ず行ってください！ファイル(フォルダ)の中の音源は自動で変更されますが、エラーが出た場合には再度確認してみてください！

【ステップ2】プログラムを起動させる

注意: プログラムを立ち上げると『メモリ』『CPU』『ディスク』が起動/分かるようになり、作業事に "ユニット数: ○○セッション" というのが消費されます！セッションというのは、RPGでいうHPみたいなもらしく、0になると作業が一定期間できなくなるようです！

僕は有料プランに変えて一期間あたり 100セッションの利用が割触れられていますが、無料プランの場合はユニット数がより限られているので、"立ち上がり〜歌声変換の作業まで" スムーズに行う事を意識かけましょう(おすすめしています)！

1 共有の変更を終え準備が出来たら、以下のURLのプラグを立ち上げてプログラムを開始する！

準備が出来たら以下のURLからプログラムを開始します！
https://colab.research.google.com/drive/1jrsoiIQiJcbpgQPPFAHbbYo8-N88xIME

現段階(23.06.13)では、僕は無料で使えています！ですが、利用されます環境で料金も発生致します可能性がありますので、必ず御自身で気になります点は確認下さい！

2 URLから Google colabが立ち上がったら、1番上のGPU check から『▶︎ (再生マーク)』をクリック、完了のマークが表示されたら Install Dependencies 〜 Mount Google Drive まで順に再生する

『警告: このノートブックは Google が作成したものではありません。』は、基本的に "このまま実行" でいいですが、不安ならここで利用を辞めること。またGoogleドライブの許可においても、ステップ1で利用したアカウントで許可をしてください！

3 Run RVC GUI を飛ばし、”TrainingのLoad dataset Zip to /content/dataset” に先程アップロードしたモデルにしたい音声のzipファイルのパスをコピペし、▶︎(再生マーク) をクリック

この工程で学習させます音源の読み込みを行いますので、再生が完了するかしっかり確認して下さい！ここでエラーが出る場合には、ステップ1に戻って、再度見落としが無いか確認してみてください！

4 Trainingが完了したら、Run RVC GUI を再生して、制作されるコードの中に立ち上がる『Public URL』に続くURLを開き RVC を開く

こちらでいよいよ、AIに声を学習させ歌声を変換して行きます！

【ステップ3】変えたい歌声/声を学習させる

1 Public URLからRVCが開かれたら、左の Model inference から始まります5つの中から3つめの『Train』を開き、Input experiment name の欄にて【モデル名】を入力する

最終的に自身が納得したクオリティが出来れば、それを保存して何度も利用することができます！モデルは必ずアルファベットで付けて下さい。日本語だとエラーが出る場合が多いので、御自身が分かりやすい名前をおすすめします！

(平野紫耀くんの場合『shohirno』『shochan』『sho』など... 半角やスペースは付けないで名前を付けるとスムーズです: マニュアル動画では『rennagase』となっています！)

2 モデルの名前が決まったら、その下の欄にある Input training folder path に、次はアップロードしたフォルダの方のパスのペースト/打ち込みをして "Process data" をクリック (ファイルを読み込む)

ステップ2-2の過程で、元は同じデータであるzipデータの方を読み込んでいます。この過程を学習素材が決定されるみたいなので、フォルダ読み込みにエラーが出ないか確認しましょう。ここでエラーが出た場合は、自動的にテンプレートの声の学習になる仕組み(勝手に)らしいので、エラーが出る場合はこれまでの工程に見落としが無いか、ステップ2-2 に不備は無いか確認してみて下さい！

3 Input training folder path 読み込みの確認後、1番下の欄の左から『Save frequency (save_every_epoch)』『Total training epochs (total_epoch)』『每張量卡的batch_size』で学習設定をし "one check training"で音声を学習させる

僕も何となく理解をしていますが、『Save frequency (save_every_epoch)』の数値を大きく設定するとディスクに保存される容量が軽くなり、『Total training epochs (total_epoch)』の数値を大きく設定すると変化のクオリティがあがります。『每張量卡的batch_size』では、読み込んだ音声ファイル(【 AIモデリングに必要なもの】の学習させたい音声 (歌声のみ wav.を 10〜30つ 10秒から30秒程度)が入ったフォルダ)に適した値にすると学習を完成させます。

お使いのPCのCPUやOS メモリ量などにかなり左右されますが、
個人的調べによると

『Save frequency (save_every_epoch)』を5~10
『Total training epochs (total_epoch)』を300~600
『每張量卡的batch_size』5~10 が安定して学習を終えるようです。

特に初めての方の場合は、

『Save frequency (save_every_epoch)』7
『Total training epochs (total_epoch)』300
『每張量卡的batch_size』7 に設定すると無料で許容範囲と想えるクオリティとおすすめします！

【ステップ4】学習データから歌声や声を変える(完成)

1 "one check training" を押すとすぐ横(右)の欄にて、学習中の実行コードが現れ、完了されるまで待つ！

2 学習を完了したらステップ3-1で触れた5つのタブのうちのModel inference を開き、Reflesh timeber list をクリックし、今回学習させたモデルの名前が出るか確認する

リフレッシュすると『決めたモデル名.pth』が選択出来るようになります！選択をすると1番右に "Please select a speaker id" というのが出現します。この表示が行われると正常にデータが学習されたことになるのではと感じています。

途中 RVCの方でエラーが出ても最終的にはモデルが完成している場合があります。Google colabの方で trainの作業が進んでる場合は、セッション数に余裕があるのなら待ってみるのもおすすめです！

3 モデル名が表示されたらGoogle colabに戻り、ファイルに表示されているRetrlevel-based-voice-Conversion...に "歌わせたい音源" をドラッグしてアップロードする

学習させる音源では、1度Google ドライブへアップロードしてから共有を設定しましたが、こちら(歌わせたい音源)は直接アップロードする事が出来るようです！
ドラックをすると下に青丸を描くようにアップロード経過が表示されるので、完了(円になる)を待ちます。

この際に、歌わせたい音源も必ず英語表記にしましょう。海外の方のプログラムという点から日本語名のままだと変換する際にエラーが起こる事が多いみたいです。なるべく完結にかつ御自身が分かりやすい名前に変え、アップロードするよう心がけましょう！

4 アップロードが完了したら、Retrlevel-based-voice-Conversion...にある"歌わせたい音源" を右クリックをして『パスをコピー』をクリック

5 パスをコピーしたら RVCに戻り、5つの選択肢の1番左にある『Model inference』を開き、"Enter the path of the audio file to be processed (the default is the correct format example)" の欄にパスをペーストする！

6 パスのペーストが出来たら、横にあるオレンジの『Conversion』をクリック！数秒待つことで、学習しAIモデルを用いた音源が表示され完成！

音源を聴いてみて、差し支えなかったら再生バーの右側の : からダウンロードを選択して動画アプリ等でMIXして音源(AIカバー)を楽しみます！

ご一読、有難う御座いました！

動画含め、至らぬ所等あるかとおもいますが
少しでも作業の参考に役立てなら幸いです。

うえダくんのLINEでは、リクエストを得て AIカバーした音源等を
ルール設けたオープンチャット内にて随時共有をしております！

是非、ご興味があります方は、下のURLからお気軽にご参加下さい！

▼ オープンチャットに参加する ▼
https://lin.ee/YJEOUNC

また有料記事では、

・Google colab 有料プラン(pro)を用いて、
クオリティが良くなる具体的な値(あたい)の提案
・変換後の声がより綺麗になる方法
・実際に使用した AIモデルのデータリスト(DL可) 使い方
・リモート等(Zoom) での個別ガイダンス

をリアルタイムで随時追記しております！

法律の改正規制等で急遽販売の中止をやむ得ない場合を覗き、モデル等も更新して参りますので、是非以下の項目にご了承頂きご一読下さいましたら幸いです！

▼ RVC 2 の使い方とポイントを随時更新して行きます！

ここから先は

586字

¥ 1,000

ログイン

この記事が気に入ったらサポートをしてみませんか？

※1/16 更新済【RVC】AIで推しの声(風)を作ろう！(音声学習から歌声変換まで) 有料共有も！

【行う前の絶対のお約束】

【RVCの使い方: 動画マニュアル解説付き】

【AIモデリングに必要なもの】

【ステップ1】 音源の準備

1 Google アカウント作成/ログインする

2 ログインしたGoogleアカウントから "Googleドライブ" を開く

3 アップロード完了後、ファイルと圧縮ファイル 2つを 右クリックにて『共有 ▶︎ 一般的なアクセス』を"リンクを知っている全員" に変更する！

【ステップ2】プログラムを起動させる

1 共有の変更を終え準備が出来たら、以下のURLのプラグを立ち上げて プログラムを開始する！

2 URLから Google colabが立ち上がったら、1番上のGPU check から 『▶︎ (再生マーク)』をクリック、完了のマークが表示されたら Install Dependencies 〜 Mount Google Drive まで順に再生する

3 Run RVC GUI を飛ばし、”TrainingのLoad dataset Zip to /content/dataset” に 先程アップロードしたモデルにしたい音声のzipファイルのパスをコピペし、▶︎(再生マーク) をクリック