AIリアルタイムボイスチェンジャーMMVC_v1.5_導入講座_春日部つむぎ編_公式サポート組を使用

2023年6月23日 14:54

注意(2023年10月21日)：話者IDが2023年10月20日を境に変更されました。
特にv1.3については話者ID
（自分の声やずんだもんの声に対する番号、春日部つむぎの番号、
107とか100とか103とか）
が変更されています。
記事の話者IDは一部古いため、
変更内容と対応方法はこちらをご確認願います。

講座記事一覧　最初と編まとめ
 前回：リアルタイム編B_VCClientで実行　次回：まだ

こんにちは。ピポッです。
AIリアルタイムボイスチェンジャーである
I'mずんだもん王への道_MMVCの導入講座動画を作っている者です。

当記事では『春日部つむぎ編_公式サポート組を使用』として、
ずんだもん以外・かつ公式サポートであるキャラクターについて
機械学習・VCする手順を説明します。
例として『春日部つむぎ』で説明しますが、
他の公式サポート（四国めたん、九州そら）も
概ね同様の手順になります。差異は都度説明を加えます。

前提として、
ずんだもんの学習をしたデータである
GoogleドライブのMMVC_Trainerフォルダ
は、データをダウンロードした後に削除しておいてください。
これは学習結果の混同を避けるためになります。

Googleドライブのダウンロード方法。
フォルダを選択して『ダウンロード』すると圧縮ファイルをダウンロードできる。

ずんだもん以外のVCを行うまでの流れは
基本的に『構築編』から『リアルタイム編』まで
ほとんど行うことは同じになります。
音声を変える場合、一部の手順が変わるため変更点のみを記述します。

また、MMVC_Trainer_v1.5(SiFiGAN)とv1.3(main)で一部異なるため、
差異のある場所はバージョンを分けて説明します。
差異が無い場合、同一の処理とみて進めてください。
追記：特に話者IDがズレている点は注意してください。

『構築編』

全く同じように導入
『構築編』の内容をもとに、改めて
Clone_Repo.ipynbを実行して
MMVC_TrainerをGoogleドライブに導入してください。

先に
『ずんだもんの学習をしたデータである
GoogleドライブのMMVC_Trainerフォルダ
は、データをダウンロードした後に削除しておいてください。』
としたのは、ずんだもんの機械学習と
これから行う春日部つむぎ（または別キャラ）の機械学習の
データの混同を避けるためです。

録音編

使用する自身の声は
『録音編A_Colabで録音』または『録音編B_Audacityで録音』
の音声を使うことができます。
再録音は不要です。

準備編

準備編から必要な処理が生じます。

まず、各キャラクターの音声データ
（v1.3の場合は合わせてテキストデータ）
をMMVC_TrainerサイトからDLします。

『MMVC公式配布の音声データの利用規約とダウンロード先について』
の項目にある
[利用規約]を確認の上、同意する場合に
[春日部つむぎ音声データ]
を押して、圧縮ファイルをダウンロードしてください。

春日部つむぎ音声データのダウンロード。
[音声データ]を押してダウンロード先に移動する。
なお、使用する場合は[利用規約]を確認の上同意する場合に限る。
他の音声データの場合も同様に [利用規約]に同意のうえ
[音声データ]からダウンロード先に移動する。

音声データ・テキストデータのダウンロードサイト。
右上のボタンから圧縮ファイルをダウンロードする。

『春日部つむぎ』の場合は、『344_tsumugi.zip』
がダウンロードされます。
ダウンロードしたらファイルを展開してください。

ダウンロード・展開後の『344_tsumugi』フォルダ。
textフォルダ、wavフォルダ、readme、versionが存在する。
v1.3ではtextフォルダ必須、v1.5ではtextフォルダ不要だが、
v1.5については影響が無いため、両Verともそのままアップロードする。

この『344_tsumugi』フォルダをGoogleドライブに配置します。
(v1.5)MMVC_Trainer-v1.5.0.0_SiFiGAN/dataset/に配置してください。(v1.3)MMVC_Trainer-main/dataset/textful/に配置してください。

344_tsumugiフォルダのGoogleドライブへのアップロード (v1.5の場合)。
全ファイルのアップロード完了するまで待つ。

アップロードが完了したら、同じフォルダに存在する
1205_zundamonフォルダと01_targetフォルダを削除してください。
その後、Googleドライブの『344_tsumugi』フォルダを
『01_target』にフォルダ名を変更してください。
(四国めたん、九州そらの場合も元のフォルダ名は異なりますが
結果的には同様に『01_target』フォルダに改名します。)
ずんだもん以外の音声(かつ単独話者)の場合、機械学習は
『01_target』フォルダ内のファイルを参照します。

1205_zundamonフォルダ削除・01_targetフォルダを削除してから
『344_tsumugi』フォルダを『01_target』フォルダに変更

01_targetフォルダの中身。
readme.txtの内容が変換したい音声に関する物であれば良い。

あとは『準備編』の記述どおりに
自身の音声データ（v1.3は合わせてテキストデータ)を
Googleドライブに配置します。

ファイル配置後、notebookフォルダにある
Create_Configfile.ipynbを手順通りに進めます
が、『config系Fileを作成する』の点のみ変更があります。

(v1.5)character_selectの番号を
春日部つむぎの場合は『104』に変えてください。
(四国めたんなら『103』、九州そらなら『102』にする）

(v1.3)character_selectの番号を
春日部つむぎの場合は『103』にしてください。
(四国めたんなら『102』、九州そらなら『101』にする）

v1.5とv1.3では番号が1つズレている点に注意してください。

v1.5(SiFiGAN)：ずんだもん101、九州そら102、四国めたん103、春日部つむぎ104、自身の声0

v1.3(main)：ずんだもん100、九州そら101、四国めたん102、春日部つむぎ103、自身の声107

番号の変更を行ったら、
『config系Fileを作成する』を実行して
機械学習用ファイルを作成します。

学習編

『学習編』と全く同じ処理で進めてください。
『準備編』で春日部つむぎの学習準備
（四国めたん、九州そらも同様）が整っているため、
『学習編』では差異がありません。

確認編

v1.5でもv1.3でも、1点だけ変更が必要な点があります。
myprofile.conf内の『target_id』の変更です。

myprofile.confの『target_id』を、
(v1.5)春日部つむぎの場合は104にしてください。
(四国めたんなら『103』、九州そらなら『102』にする）

(v1.3)春日部つむぎの場合は103にしてください。
(四国めたんなら『102』、九州そらなら『101』にする）

v1.5とv1.3では番号が1つズレている点に注意してください。
他の点は『確認編』の手順と同様になります。

リアルタイム編A_MMVC_Clientで実行

『確認編』の項目に書いた内容と同様に、
myprofile.conf内の『target_id』の変更が必要になります。
target_idの変更値は同様です。
他の点については『リアルタイム編A_MMVC_Clientで実行』
の内容と同一になります。

リアルタイム編B_VCClientで実行

v1.5とv1.3で
『リアルタイムVCする』内での操作内容が異なります。

(v1.5)train_config_Correspondence.txt
にIDが自動で記入されているため、特に変更点はありません。
『リアルタイム編B_VCClientで実行』の手順通りの操作で
春日部つむぎへのVCができます。
（四国めたん、九州そらも同様）

念のため、train_config_Correspondence.txt指定時に
『Speaker Setting』欄の
『Destination Speaker Id』が、
『準備編』で指定したID（春日部つむぎなら『104』）
になっているか確認してください。
自動で『104』になっていれば問題ありません。
（四国めたんなら『103』、九州そらなら『102』になる）

(v1.3)『Speaker Setting』欄の
『Destination Speaker Id』から、
該当するキャラクターを選んでください。
春日部つむぎなら『つむぎ(103)』を選択してください。
（四国めたんなら『102』、九州そらなら『101』になる）
その他は同様です。

VCClient_MMVC_v13。v13の場合はDestination Speaker idから目標話者のIDを指定する。

春日部つむぎ編_公式サポート組を使用まとめ

構築編
　→GoogleドライブからTrainerフォルダを削除してから
　改めてClone_Repo.ipynb実行
録音編
　→同じ
準備編
　→MMVC_Trainerサイトから音声データ等をDL
　対応するdatasetフォルダに配置
　zundamonフォルダは削除
学習編
　→同じ
確認編、リアルタイム編
　→target_idだけ変える。
　v1.5は春日部つむぎ=104
　v1.3は春日部つむぎ=103

最後に(開発者支援)

開発者である天王洲アイルさん(@IsleTennos)は
PIXIV FANBOXを開設しています。
有料プランもあるため、資金の支援が可能です。
MMVC開発を支援したい方は是非支援をお願いします。
無料プランでMMVC開発状況も書く（らしい）ため、
リンク先を登録しておくと便利だと思います。
FANBOXは下記URLになります。

公式サポート音声募集中

MMVC公式サポート音源は常時募集中です(FAQより)。
ご自身の声をMMVC公式サポート音源にしたい場合は、
開発者である天王洲アイルさんのTwitterか
MMVC DiscordサーバーのIsleTennos#5740(天王洲アイルさん)に
DMにてお問合せください。

MMVCで分からない事があったら(FANBOXで質問)

不明点はMMVCのDiscordサーバーで質問可能ですが、
それとは別の質問用窓口が作成されました。
下記の、MMVC開発者天王洲アイルさんのpixivFAOBOXにて質問可能です。
MMVC関係で分からないことがあり、
Discordに入る事が難しい、質問しにくい、といった場合は
『MMVCに関する開発者に問い合わせ』にて質問してみてください。

次回予告(No.7編_配布音源を使用)

次回は『No.7編_配布音源を使用』として
公式サポート以外の音声で、かつ
ITAコーパスやROHAN等のパブリックドメインによる
コーパス録音音声を機械学習・VCする場合を説明します。

MMVCは公式サポート音声以外へのVCが可能です。
必要な物は音声データ（v1.3は合わせてテキストデータ）になります。
No.7は『ROHAN』(ROHAN4600)というITAコーパスとは別の
コーパスが録音・配布されています。
No.7のような配布音源に対して
機械学習・VCする方法を
『No.7編_配布音源を使用』として記述予定です。