見出し画像

AIリアルタイムボイスチェンジャーMMVC_v1.5_導入講座_録音編A_Colabで録音

講座記事一覧 最初と編まとめ
前回:構築編 次回:録音編B_Audacityで録音
こんにちは。ピポッです。
AIリアルタイムボイスチェンジャーである
I'mずんだもん王への道_MMVCの導入講座動画を作っている者です。

当記事では
『MMVC_v1.5_導入講座_録音編A_Colabで録音』
として、Google Colaboratory上で
必要な音声を録音する手順を記述します。
具体的には『02_Rec_Voice.ipynbを使う』です。
使用方法や、録音する際のポイント・注意点を説明します。
なお、Colabでの録音は(Colabの依存度を下げるために)
非推奨の方向になるかもしれません。

ご了承ください。


02_Rec_Voice.ipynbを開く

前回の構築編により、構築編で使用したGoogleアカウントには
MMVCの機械学習に必要なファイルがGoogle Driveに保存されました。
まずはファイルの確認を行います。


Google Driveを開く

構築編で使用したGoogleアカウントにログインした状態で、
Google(https://www.google.co.jp/)にアクセスします。
アクセス後、右上の9個の●マークのボタンを押して、
表示された中から『ドライブ』を押してください。

GoogleからGoogleドライブにアクセス。
構築編で使用したアカウントである事を確認してから
Googleドライブに移動する。

ドライブを押すと、Googleドライブの
『マイドライブ』画面に移ります。
最初は詳細が表示されていますが、邪魔なので非表示にします。
『詳細』右上の✕ボタンを押してください。

Googleドライブ『マイドライブ』
最初は『詳細』が表示されているため、非表示にする。

非表示にした後、『マイドライブ』に
『MMVC_Trainer-v1.5.0.0_SiFiGAN』フォルダがあれば
問題ありません。
※v1.3の方は代わりに『MMVC_Trainer-main』フォルダがあれば
問題ありません。

Googleドライブ『マイドライブ』の状態。
v1.5なら『MMVC_Trainer-v1.5.0.0_SiFiGAN』フォルダがあれば良い。
v1.3なら『MMVC_Trainer-main』フォルダがあれば良い。


notebookフォルダのRec_Voice.ipynbを開く

フォルダが確認できたら、
『MMVC_Trainer-v1.5.0.0_SiFiGAN』フォルダ
(v1.3は『MMVC_Trainer-main』フォルダ)を
ダブルクリックし、フォルダ内に移動してください。

Googleドライブ『マイドライブ』から 『MMVC_Trainer-v1.5.0.0_SiFiGAN』フォルダに移動
(v1.3は『MMVC_Trainer-main』フォルダ)


『MMVC_Trainer-v1.5.0.0_SiFiGAN』フォルダの中身

『MMVC_Trainer-』フォルダの次は、『notebook』フォルダに
ダブルクリックして移動してください。

『MMVC_Trainer-v1.5.0.0_SiFiGAN』フォルダの 『notebook』フォルダ
『MMVC_Trainer-v1.5.0.0_SiFiGAN』フォルダの 『notebook』フォルダ内ファイル

今回使用するファイルは、『notebook』フォルダの
『02_Rec_Voice.ipynb』になります。
(v1.3は『00_Rec_Voice.ipynb』)
『02_Rec_Voice.ipynb』をダブルクリックします。

『notebook』フォルダの『02_Rec_Voice.ipynb』を選択


アカウントにGoogle Colaboratoryをインストール

.ipynbファイルを開こうとすると、
最初は『プレビューできません』と表示されます。
この場合は、画面上の『アプリで開く』を押し、
『その他のアプリを接続』を押してください。

プレビューできません。
この表示は、GoogleアカウントにGoogleColaboratoryが
インストールされていないと表れる。
アプリで開く→その他のアプリを接続 からColabを選ぶ

『その他のアプリを接続』を押すと、
アプリの選択画面が出ます。
この画面で、上の検索ボタンを押してください。

アプリの選択画面。
画面上の検索ボタンを押して、Colabを探す。

『アプリを検索』と表示されたら、『Colab』と入力してください。
すると『Colaboratory』が選択肢に表れるため、
こちらを押してください。

アプリを検索。『Colab』と入力すると
『Colaboratory』が表示されるため、選択する。

すると、オレンジ色でCOというマークの
『Colaboratory』が表示されます。
この『Colaboratory』を押してください。

Colaboratoryを選択。

Colaboratoryを選択すると、インストール前の画面になります。
『インストール』を押して、Colaboratoryを
使用しているGoogleアカウントにインストールしてください。

Colaboratoryのインストール画面

『インストールの準備』という表示が表れるため、
『続行』を押して進めてください。

インストールの準備。問題がなければ『続行』を押す。

『続行』を押すと、構築編でも表示された
『アカウントの選択画面』ウィンドウが出ます。
使用するアカウントを押してください。

アカウントの選択。構築編で選択したアカウントを選ぶ。

選択後、画面が戻ります。
数秒すると画面の上下に『Google Colaboratory』が表れます。
画面上の『Google Colaboratoryで開く』を押してください。

GoogleColaboratoryインストール後の画面。
上部の『Google Colaboratryで開く』を押す。

新しいタブが作られ、以下に示すような
02_Rec_Voice.ipynb
のGoogleColab画面が表示されたら成功です。

Google Colaboratoryで開いた02_Rec_Voice.ipynb
(v1.3は00_Rec_Voice.ipynbになる)


録音する

Colab上で録音するために、まず『0 ノートブックの準備』から
『3 録音の準備』までを順に実行します。
最後に『4 学習用音声を録音する』で1文ずつ録音します。


02_Rec_Voice.ipynb:0 ノートブックの準備

『0 ノートブックの準備』の枠にある
●▶のボタンを押してください。
少しすると『log: パッケージのインストールを開始します』
と表示され、その後に色々表示されます。
数秒経って、最後に
『log: パッケージのインストールが完了しました。』
と表示されていたら、次に進んでください。

02_Rec_Voice.ipynb:0 ノートブックの準備
02_Rec_Voice.ipynb:0 ノートブックの準備 実行結果


02_Rec_Voice.ipynb:1 Notebookの準備

『1 Notebookの準備』の枠にある
●▶のボタンを押してください。
押すと下部に色々表示されます。
数秒経って、最後に
『log: パッケージのインストールが完了しました。』
と表示されていたら、次に進んでください。

02_Rec_Voice.ipynb:1 Notebookの準備
02_Rec_Voice.ipynb:1 Notebookの準備 実行結果


02_Rec_Voice.ipynb:2 リポジトリの準備

『2 リポジトリの準備』の枠にある
●▶のボタンを押してください。
押すと『2 リポジトリの準備』の枠の下部に
Platform:Colab
Path:/content/drive/MyDrive/MMVC_Trainer-main
と表示されます。

02_Rec_Voice.ipynb:2 リポジトリの準備


02_Rec_Voice.ipynb:2 リポジトリの準備 実行直後の表示。
デフォルトだとPathは /content/drive/MyDrive/MMVC_Trainer-main になる。

ここで、v1.5の場合はPathを
/content/drive/MyDrive/MMVC_Trainer-v1.5.0.0_SiFiGAN
に変更してください。

変更したら『次へ』を押してください。
(v1.3はPathをそのままに『次へ』を押してください。)

02_Rec_Voice.ipynb:2 リポジトリの準備 v1.5向け変更後。Pathは
/content/drive/MyDrive/MMVC_Trainer-v1.5.0.0_SiFiGAN
になる(v1.3は変更しない)。

『次へ』を押すと
『このノートブックにGoogleドライブの
ファイルへのアクセスを許可しますか?』
と表示されます。
『Googleドライブに接続』を押してください。

『このノートブックにGoogleドライブの ファイルへのアクセスを許可しますか?』
『Googleドライブに接続』を選ぶ。

『Googleドライブに接続』を押すと、新しいウィンドウで
『アカウントの選択』が表示されます。
使用するアカウント(構築編で使用したアカウント)を選び、
画面が変わったら最下部の『許可』を押してください。

アカウントの選択。構築編で使用したアカウントを選ぶ。
アカウントへのアクセス許可。
問題がなければ 最下部の『許可』を選ぶ。

しばらくして、
log: Google Driveのマウントが完了しました。
/content/drive/MyDrive/MMVC_Trainer-v1.5.0.0_SiFiGAN

と表示されたら、次に進んでください。
(v1.3の場合は
/content/drive/MyDrive/MMVC_Trainer-main
と表示されます。)

02_Rec_Voice.ipynb:2 リポジトリの準備 実行結果
『log: Google Driveのマウントが完了しました。
/content/drive/MyDrive/MMVC_Trainer-v1.5.0.0_SiFiGAN』 と出たらOK。
v1.3は /content/drive/MyDrive/MMVC_Trainer-main と出たらOK。


02_Rec_Voice.ipynb:3 録音の準備

『3 録音の準備』の枠にある
●▶ボタンを押してください。

02_Rec_Voice.ipynb:3 録音の準備

しばらくして、『3 録音の準備』左に緑のチェックマークが付き、
『Successfully installed pysndfile-1.4.4』
と出ていれば、次に進んでください。

02_Rec_Voice.ipynb:3 録音の準備 完了
『Successfully installed pysndfile-1.4.4』 と最後に表示されていればOK。


02_Rec_Voice.ipynb:4 学習用音声を録音する

録音を開始します。
『4 学習用音声を録音する』には118個ほど●▶ボタンがあり、
各ボタンごとに1文の録音が行われます。
(ファイル内で「100件の学習データ」とあるのに
118個に分かれている理由は、長い文章については
分割されているためです。)

なお、あらかじめブラウザでの
マイクのアクセスは許可しておき、
使用するマイクの設定をしておいてください。
設定方法はブラウザごとによります。

マイクの準備ができたら、上から順に録音していきます。
『rec(3, "emotion001", "えっ嘘でしょ。", "えっうそでしょ。")』
左の●▶ボタンを押し、直下に『えっ嘘でしょ。』と表示されたら
3秒以内(rec( の隣にある秒数以内)に読み上げてください。

正しく録音できた場合、下の図のように
『●▶の左に緑のチェックマーク』
『音声の波形』と
『録音した音声の再生ボタン』
が表れます。

02_Rec_Voice.ipynb:4 学習用音声を録音する
『えっ嘘でしょ。』を録音した場合。
ブラウザのタブに『マイク使用中』を表す赤い丸が表れる。
波形の縦軸は音量、横軸は時間(秒)を表している。
再生ボタンから録音した音声が確認できる。

録音した音声ファイルは、Googleドライブから見て
マイドライブ/MMVC_Trainer-v1.5.0.0_SiFiGAN/dataset/textful/00_myvoice/wav
(/content/drive/MyDrive/MMVC_Trainer-v1.5.0.0_SiFiGAN/dataset/textful/00_myvoice/wav)
フォルダに保存されます。
(v1.3なら以下のフォルダに存在する。
マイドライブ/MMVC_Trainer-main/dataset/textful/00_myvoice/wav)

あとは録音を
『rec(3, "emotion001", "えっ嘘でしょ。", "えっうそでしょ。")』
と同じように、順番に●▶ボタンを押していき
recの右にある秒数以内で読み上げる、
を繰り返してください。
各文章を読み上げていき、
『●▶の左に緑のチェックマーク』
『音声の波形』と
『録音した音声の再生ボタン』
が表示されていれば完了です。お疲れ様でした。


録音のポイント・注意点

録音する際に、意識すると音声変換の結果が良くなる
(かもしれない)点を列挙します。

文中の「、」「。」は音を区切る。
「・」マークや他の箇所では音を区切らない。

文中の「、」「。」マーク(句読点)は音を止めてください。
例えば『どーすんの、このお店。
完ッ全に閑古鳥が鳴いちゃってるじゃない。』
という文章なら
『どーすんの(ポーズ)このお店(ポーズ)
完ッ全に閑古鳥が鳴いちゃってるじゃない』
という読み方をしてください。

一方で、「・」マーク(中点)等では声を止めず、
そのまま読みを進めてください。

例えば『サウンド・オブ・ミュージック』という文章なら
読みは『サウンドオブミュージック』になります。
加えて、読みにくい文章であっても
「、」「。」以外の箇所では文章を区切らないでください。


0.4秒以上15秒以内に収める

これはMMVCの仕様です。
この時間を外れる音声は機械学習で除外されます。
多くの音声を機械学習のデータとして使うために、
0.4秒以上15秒以下に収まるように録音してください。


普段の調子で話す

無理に抑揚や音程を付けず、
通常の会話と同じような声で録音してください。
音声変換は話した声に基づいて行われるため
『録音時』と『実際に使う時』の状態が同じ方が変換が良くなります。


無音は極力避ける(開始時・終了時)

無音部分は機械学習において邪魔になるため、
できるだけ無音部分が無いように録音してください。
特に、録音開始時と録音終了時の無音は少ないほうが良いです。
ただし、文中の『、』や『っ』といった
途中の無音部分は普段どおりにしてください。


録音編A_Colabで録音のまとめ

  • 02_Rec_Voice.ipynbを開く
    →構築編で使用したGoogleアカウントから
     Googleドライブを開き、GoogleColaboratoryをインストールします

  • 録音する
    →02_Rec_Voice.ipynbを上から順に実行していき
     『4 学習用音声を録音する』で音声データを録音します。

  • 録音のポイント・注意点
    →音声は0.4秒以上15秒以下、普段の調子で、開始終了無音は避ける


最後に(開発者支援)

開発者である天王洲アイルさん(@IsleTennos)は
PIXIV FANBOXを開設しています。
有料プランもあるため、資金の支援が可能です。
MMVC開発を支援したい方は是非支援をお願いします。
無料プランでMMVC開発状況も書く(らしい)ため、
リンク先を登録しておくと便利だと思います。
FANBOXは下記URLになります。


公式サポート音声募集中

MMVC公式サポート音源は常時募集中です(FAQより)
ご自身の声をMMVC公式サポート音源にしたい場合は、
開発者である天王洲アイルさんのTwitter
MMVC DiscordサーバーのIsleTennos#5740(天王洲アイルさん)に
DMにてお問合せください。


MMVCで分からない事があったら(FANBOXで質問)

不明点はMMVCのDiscordサーバーで質問可能ですが、
それとは別の質問用窓口が作成されました。
下記の、MMVC開発者天王洲アイルさんのpixivFAOBOXにて質問可能です。
MMVC関係で分からないことがあり、
Discordに入る事が難しい、質問しにくい、といった場合は
『MMVCに関する開発者に問い合わせ』にて質問してみてください。



次回予告(録音編B_Audacityで録音

次回は『録音編B_Audacityで録音』として、
Audacityという無料ソフトを用いた録音手順を紹介します。
やることは
『読み上げ文章を用意する』
『録音する』
『機械学習向けに加工する』
です。
文章の用意内容や、変換結果を良くするための音声加工について
記述する必要があるため、
録音編B_Audacityで録音』として記事執筆予定です。


関連リンク

Googleドライブ:https://drive.google.com/drive/
Google Colab(Google Colaboratory):https://colab.research.google.com/
ITAコーパス(読み上げ文章):https://github.com/mmorise/ita-corpus/blob/main/emotion_朗読者用.pdf

開発者Twitter:https://twitter.com/IsleTennos
開発者FANBOX:https://mmvc.fanbox.cc/
MMVC Discordサーバー:https://discord.com/invite/2MGysH3QpD

MMVCニコニコ大百科:https://dic.nicovideo.jp/a/mmvc
記事執筆者Twitter:https://twitter.com/pipo_lll
記事執筆者Youtube:http://youtube.com/@pipo_lll
記事執筆者ニコニコ:https://www.nicovideo.jp/user/653583/
Imずんだもん王への道(旧版のMMVC導入解説動画)
ニコニコ Youtube
記事執筆者Note:https://note.com/pipo_lll
記事執筆者_欲しい物リスト(何かいただけたら嬉しいです)
https://amzn.to/37XNPOL

講座記事一覧 最初と編まとめ
前回:構築編 次回:録音編B_Audacityで録音

この記事が気に入ったらサポートをしてみませんか?