見出し画像

AIリアルタイムボイスチェンジャーMMVC_v1.5_導入講座_春日部つむぎ編_公式サポート組を使用

注意(2023年10月21日):話者IDが2023年10月20日を境に変更されました。
特にv1.3については話者ID
(自分の声やずんだもんの声に対する番号、春日部つむぎの番号、
107とか100とか103とか)
が変更されています。
記事の話者IDは一部古いため、
変更内容と対応方法はこちらをご確認願います。

講座記事一覧 最初と編まとめ
前回:リアルタイム編B_VCClientで実行 次回:まだ

こんにちは。ピポッです。
AIリアルタイムボイスチェンジャーである
I'mずんだもん王への道_MMVCの導入講座動画を作っている者です。

当記事では『春日部つむぎ編_公式サポート組を使用』として、
ずんだもん以外・かつ公式サポートであるキャラクターについて
機械学習・VCする手順を説明します。
例として『春日部つむぎ』で説明しますが、
他の公式サポート(四国めたん、九州そら)も
概ね同様の手順になります。差異は都度説明を加えます。

前提として、
ずんだもんの学習をしたデータである
GoogleドライブのMMVC_Trainerフォルダ
は、データをダウンロードした後に削除しておいてください。

これは学習結果の混同を避けるためになります。

Googleドライブのダウンロード方法。
フォルダを選択して『ダウンロード』すると圧縮ファイルをダウンロードできる。

ずんだもん以外のVCを行うまでの流れは
基本的に『構築編』から『リアルタイム編』まで
ほとんど行うことは同じになります。
音声を変える場合、一部の手順が変わるため変更点のみを記述します。

また、MMVC_Trainer_v1.5(SiFiGAN)v1.3(main)で一部異なるため、
差異のある場所はバージョンを分けて説明します。
差異が無い場合、同一の処理とみて進めてください。
追記:特に話者IDがズレている点は注意してください。


『構築編』

全く同じように導入
『構築編』の内容をもとに、改めて
Clone_Repo.ipynbを実行して
MMVC_TrainerをGoogleドライブに導入してください。

先に
『ずんだもんの学習をしたデータである
GoogleドライブのMMVC_Trainerフォルダ
は、データをダウンロードした後に削除しておいてください。』
としたのは、ずんだもんの機械学習と
これから行う春日部つむぎ(または別キャラ)の機械学習の
データの混同を避けるためです。


録音編

使用する自身の声は
録音編A_Colabで録音』または『録音編B_Audacityで録音
の音声を使うことができます。
再録音は不要です。


準備編

準備編から必要な処理が生じます。

まず、各キャラクターの音声データ
(v1.3の場合は合わせてテキストデータ)
をMMVC_TrainerサイトからDLします。

『MMVC公式配布の音声データの利用規約とダウンロード先について』
の項目にある
[利用規約]を確認の上、同意する場合に
[春日部つむぎ 音声データ]
を押して、圧縮ファイルをダウンロードしてください。

春日部つむぎ 音声データのダウンロード。
[音声データ]を押してダウンロード先に移動する。
なお、使用する場合は[利用規約]を確認の上 同意する場合に限る。
他の音声データの場合も同様に [利用規約]に同意のうえ
[音声データ]から ダウンロード先に移動する。
音声データ・テキストデータのダウンロードサイト。
右上のボタンから圧縮ファイルをダウンロードする。

『春日部つむぎ』の場合は、『344_tsumugi.zip』
がダウンロードされます。
ダウンロードしたらファイルを展開してください。

ダウンロード・展開後の『344_tsumugi』フォルダ。
textフォルダ、wavフォルダ、readme、versionが存在する。
v1.3ではtextフォルダ必須、v1.5ではtextフォルダ不要だが、
v1.5については影響が無いため、両Verともそのままアップロードする。

この『344_tsumugi』フォルダをGoogleドライブに配置します。
(v1.5)MMVC_Trainer-v1.5.0.0_SiFiGAN/dataset/に配置してください。(v1.3)MMVC_Trainer-main/dataset/textful/に配置してください。

344_tsumugiフォルダのGoogleドライブへのアップロード (v1.5の場合)。
全ファイルのアップロード完了するまで待つ。

アップロードが完了したら、同じフォルダに存在する
1205_zundamonフォルダと01_targetフォルダを削除してください。
その後、Googleドライブの『344_tsumugi』フォルダを
『01_target』にフォルダ名を変更
してください。
(四国めたん、九州そらの場合も元のフォルダ名は異なりますが
結果的には同様に『01_target』フォルダに改名します。)
ずんだもん以外の音声(かつ単独話者)の場合、機械学習は
『01_target』フォルダ内のファイルを参照します。

1205_zundamonフォルダ削除・01_targetフォルダを削除してから
『344_tsumugi』フォルダを『01_target』フォルダに変更


01_targetフォルダの中身。
readme.txtの内容が変換したい音声に関する物であれば良い。


あとは『準備編』の記述どおりに
自身の音声データ(v1.3は合わせてテキストデータ)を
Googleドライブに配置します。

ファイル配置後、notebookフォルダにある
Create_Configfile.ipynbを手順通りに進めます
が、『config系Fileを作成する』の点のみ変更があります。

(v1.5)character_selectの番号を
春日部つむぎの場合は『104』に変えてください。

(四国めたんなら『103』、九州そらなら『102』にする)

(v1.3)character_selectの番号を
春日部つむぎの場合は『103』にしてください。

(四国めたんなら『102』、九州そらなら『101』にする)

v1.5とv1.3では番号が1つズレている点に注意してください。

v1.5(SiFiGAN):ずんだもん101、九州そら102、四国めたん103、春日部つむぎ104、自身の声0

v1.3(main):ずんだもん100、九州そら101、四国めたん102、春日部つむぎ103、自身の声107

番号の変更を行ったら、
『config系Fileを作成する』を実行して
機械学習用ファイルを作成します。


学習編

『学習編』と全く同じ処理で進めてください。
『準備編』で春日部つむぎの学習準備
(四国めたん、九州そらも同様)が整っているため、
『学習編』では差異がありません。


確認編

v1.5でもv1.3でも、1点だけ変更が必要な点があります。
myprofile.conf内の『target_id』の変更です。

myprofile.confの『target_id』を、
(v1.5)春日部つむぎの場合は104にしてください。
(四国めたんなら『103』、九州そらなら『102』にする)

(v1.3)春日部つむぎの場合は103にしてください。
(四国めたんなら『102』、九州そらなら『101』にする)

v1.5とv1.3では番号が1つズレている点に注意してください。
他の点は『確認編』の手順と同様になります。


リアルタイム編A_MMVC_Clientで実行

『確認編』の項目に書いた内容と同様に、
myprofile.conf内の『target_id』の変更が必要になります。
target_idの変更値は同様です。
他の点については『リアルタイム編A_MMVC_Clientで実行』
の内容と同一になります。


リアルタイム編B_VCClientで実行

v1.5とv1.3で
『リアルタイムVCする』内での操作内容が異なります。

(v1.5)train_config_Correspondence.txt
にIDが自動で記入されているため、特に変更点はありません。
『リアルタイム編B_VCClientで実行』の手順通りの操作で
春日部つむぎへのVCができます。
(四国めたん、九州そらも同様)

念のため、train_config_Correspondence.txt指定時に
『Speaker Setting』欄の
『Destination Speaker Id』が、
『準備編』で指定したID(春日部つむぎなら『104』)
になっているか確認してください。

自動で『104』になっていれば問題ありません。
(四国めたんなら『103』、九州そらなら『102』になる)

(v1.3)『Speaker Setting』欄の
『Destination Speaker Id』から、
該当するキャラクターを選んでください。
春日部つむぎなら『つむぎ(103)』を選択してください。
(四国めたんなら『102』、九州そらなら『101』になる)
その他は同様です。

VCClient_MMVC_v13。v13の場合はDestination Speaker idから目標話者のIDを指定する。


春日部つむぎ編_公式サポート組を使用まとめ

  • 構築編
     →GoogleドライブからTrainerフォルダを削除してから
     改めてClone_Repo.ipynb実行

  • 録音編
     →同じ

  • 準備編
     →MMVC_Trainerサイトから音声データ等をDL
     対応するdatasetフォルダに配置
     zundamonフォルダは削除

  • 学習編
     →同じ

  • 確認編、リアルタイム編
     →target_idだけ変える。
     v1.5は春日部つむぎ=104
     v1.3は春日部つむぎ=103


最後に(開発者支援)


開発者である天王洲アイルさん(@IsleTennos)は
PIXIV FANBOXを開設しています。
有料プランもあるため、資金の支援が可能です。
MMVC開発を支援したい方は是非支援をお願いします。
無料プランでMMVC開発状況も書く(らしい)ため、
リンク先を登録しておくと便利だと思います。
FANBOXは下記URLになります。


公式サポート音声募集中

MMVC公式サポート音源は常時募集中です(FAQより)。
ご自身の声をMMVC公式サポート音源にしたい場合は、
開発者である天王洲アイルさんのTwitter
MMVC DiscordサーバーのIsleTennos#5740(天王洲アイルさん)に
DMにてお問合せください。


MMVCで分からない事があったら(FANBOXで質問)

不明点はMMVCのDiscordサーバーで質問可能ですが、
それとは別の質問用窓口が作成されました。
下記の、MMVC開発者天王洲アイルさんのpixivFAOBOXにて質問可能です。
MMVC関係で分からないことがあり、
Discordに入る事が難しい、質問しにくい、といった場合は
『MMVCに関する開発者に問い合わせ』にて質問してみてください。



次回予告(No.7編_配布音源を使用)


次回は『No.7編_配布音源を使用』として
公式サポート以外の音声で、かつ
ITAコーパスやROHAN等のパブリックドメインによる
コーパス録音音声を機械学習・VCする場合を説明します。

MMVCは公式サポート音声以外へのVCが可能です。
必要な物は音声データ(v1.3は合わせてテキストデータ)になります。
No.7は『ROHAN』(ROHAN4600)というITAコーパスとは別の
コーパスが録音・配布されています。
No.7のような配布音源に対して
機械学習・VCする方法を
『No.7編_配布音源を使用』として記述予定です。

関連リンク

MMVC公式サポート音声配布先:https://github.com/isletennos/MMVC_Trainer#mmvc公式配布の音声データの利用規約とダウンロード先について

MMVC開発者Twitter:https://twitter.com/IsleTennos
MMVC開発者FANBOX:https://mmvc.fanbox.cc/
MMVC Discordサーバー:https://discord.com/invite/2MGysH3QpD

VCClient開発者Twitter:https://twitter.com/DannadoriYellow
VCClient issues Open(未解決問題):https://github.com/w-okada/voice-changer/issues
VCClientissues Closed(解決した問題):https://github.com/w-okada/voice-changer/issues?q=is%3Aissue+is%3Aclosed
VCClient開発者_寄付先:https://www.buymeacoffee.com/wokad

MMVCニコニコ大百科:https://dic.nicovideo.jp/a/mmvc
記事執筆者Twitter:https://twitter.com/pipo_lll
記事執筆者Youtube:http://youtube.com/@pipo_lll
記事執筆者ニコニコ:https://www.nicovideo.jp/user/653583/
Imずんだもん王への道(旧版のMMVC導入解説動画)
ニコニコ Youtube
記事執筆者Note:https://note.com/pipo_lll
記事執筆者_欲しい物リスト(何かいただけたら嬉しいです)
https://amzn.to/37XNPOL

講座記事一覧 最初と編まとめ
前回:リアルタイム編B_VCClientで実行 次回:まだ

この記事が気に入ったらサポートをしてみませんか?