ITAコーパスを用いたTALQuモデル生成手順がきたのでやってみる

ITAコーパスが発表されましたね。パブリックドメインというのは実に良いものです。

そして今までの声優統計コーパス利用ではなく、ITAコーパス利用の学習用ノートが出てきましたね。
では今回も解説していきます。

1. OREMOとITAコーパスのリストを用意する

DAWなどでまとめて録音する方法、OREMOで1文ずつ録音していく方法があります。2つ試した結果、変換とか再録の都合上OREMOがめっちゃ楽だと感じたので今回はそっちの解説をします。まとめて録音→切り出しについては前記事を御覧ください。

まず、OREMOを下記サイトよりDLします。
https://ja.osdn.net/users/nwp8861/pf/OREMO/wiki/FrontPage
とりあえず一番新しいやつをDLする形で大丈夫です。
UTAUのユーザー様で、既にお手元にOREMOがお有りの方も、設定の変更やらが面倒なため新規DLして専用にした方が楽です。
zipを解凍して分かりやすいところに置いておきます。

次に録音のためのリストを用意します。
Haruqa様より配布されているOREMO用リストを使います。
https://github.com/Haruqa/ita-corpus
画面中央右にある「↓Code」ボタンから「zip download」を選択すると、表示されている項目が全てzipファイルとしてDLできます。
これも解凍して分かりやすいところにおくようにしましょう。

2. OREMOの設定 その1

OREMOを利用するにあたり、いくつかの下準備が必要となります。

まず、ITAコーパスには「emotion」と「recitation」という2種類のリストがあります。前者は100文、後者は324文あります。両方録音しますが、どちらを先に収録するかはご自身で決めてください。

ではOREMOを起動します。
左上の「ファイル」→「音名リストの読み込み」を選択し、先ほど解凍した中の「OREMO音名リスト」フォルダにある音名リストを読み込みます。
次に同様に左上の「ファイル」→「コメントファイルの読み込み」を選択し、「OREMOコメント」フォルダにあるコメントファイルを読み込みます。
OREMOに文章が表示され、その下にひらがな読みが表示されればひとまず完了です。

3. OREMOの設定 その2

ノートブックでの学習は22.05kHz、16bitのwavになりますが、別用途で配布などを考えている方は48kHzの16bitで録音するのがお勧めです。後から潰しがききます。 (初期設定のOREMOは44.1kHzの16bitで収録されます)
今回は48kHzでの収録を紹介していきます。

OREMOの「オプション」→「オーディオI/O設定」を選択し、設定画面中央のPortAudioで「録音する」にチェックを入れます。
「入力デバイス」のプルダウンから、収録に使うデバイスを設定します。
サンプリング周波数に「48000」と入力し、「適用」を押してから「OK」を押します。

これで収録準備は完了です。
(なお、PortAudioの設定はOREMOを閉じた時に保存されません、起動するたびに設定する必要があるので、間を開けて収録する方は注意が必要です)

4. 収録時に注意すること

私が実際に録音した中での注意点をまとめます。参考程度に見ていただければと思います。

・事前に下読みする
声優統計コーパスより簡単、という方もおりますが、如何せん難読であることに変わりありません。中には長文もあり、途中で噛んでしまうと文の頭から読み直しになるので体力と時間が溶けていきます。
スムーズな収録にするために、機材を準備する前に予め下読みする事をお勧めいたします。 ちなみに私は全部合わせて1時間半くらいかかりました。

・マイク音量を適切に
後述しますが、マイク音量が適切でないと無音削除などがうまく動かない可能性があります。また、音割れも好ましくありません。割れないギリギリまで音量が確保できるのが良いでしょう。ノイズ除去などもやりやすくなります。

・OREMOの文字の大きさ調整
マイクに向かうと、画面から離れてしまって文字が見づらい、という場合があります。OREMOの「オプション」→「フォントサイズの設定」を選択すると、大きさを調整できます。再起動で反映になりますので、PortAudioの設定を有効にしている方は注意しましょう。

・長文すぎると表示しきれなくなる
元の文章が長すぎて入りきらないことがあります。Haruqa様の配布ファイルの中には、pdfデータも含まれているので、別途開いて準備しておくか、予めスマホなどに転送して、手元で確認できるようにしておくのが好ましいです。

・文中の「・」は続けて読む
文中の「・」(中黒)は句読点としては認識しませんので、続けて読むようにしましょう。

・左右キーに注意
「R」キーを押しっぱなしで録音、「↓」キーで次へ送ることができますが、うっかり「←」「→」を押してしまうと音高差分を録るモードになってしまいます。押し間違いが怖い方はOREMOフォルダ内の「typelist」の中身を空にして保存しておきましょう。

・録音が終わった後は音素数が正しいか確認
たまに収録忘れがあります。学習する時になってファイル不足のエラーで気付いた、なんてことにならないように機材を片付ける前に確認しましょう。

5.ファイル名を変換する

収録が終わって、音素も確認したら学習の準備です。
解凍ファイルの中にある「ファイル名をいい感じにするやつ」の中にあるbatファイルを全てresultフォルダに移します。
次に、「音名→ファイル名」のbatをemotion、recitationともに実行します。
ファイル名の変換はこれだけです。

※もしうまく動作しない場合、テキストエンコード問題の可能性があります。
batファイルをメモ帳で開き、「ASIN」で保存し直してみてください。
(私の環境はなぜかbatが動かず、この方法で解決しました。私だけかもしれないですが、再現した方がいらっしゃいましたら情報ください)

7/18追記
他の方も動作しない例があり、公式対応されたようです。

6.学習の準備

およそ動画内で説明いただいてますので簡単に説明しておきます。
・Googleドライブにアクセス、マイドライブ直下に「colab/tacotron2/dataset」とフォルダを作り、datasetフォルダの中に収録したファイルを全部入れます。

・ノートブック内の「前処理」を実行します。
設定がよくわからない人はとりあえずそのまま順番に実行するだけで大丈夫です。
※声優統計コーパスの時は手動でやっていた作業が全てボタン一つで済む、大変ありがたい機能です。ただし、ノイズ除去はついてないようなので、環境によっては手動でやっておく必要はありそうです。ノーマライズはデフォルトでコメントアウトしているため、ビットレート変換と無音調整だけが行われる形のようです。音量調整も含め、手動で可視化しながらやりたい方は、私の過去のnoteをご覧ください。(開発者泣かせ)

・「学習の実行」を上から順番に実行していく
学習が始まっていくと、200回ごとにモデルが生成されます。
1つのファイルが300MBオーバーなので、学習を回しまくると一瞬でGoogleドライブが埋まります。他に保存しているものがあって、どうしても空きが確保しづらい場合は、checkpoint_0から近い順に削除していきましょう。
(消してもノートブック2のグラフは表示されます、不思議)

以降の処理については前回の声優統計コーパスの時と変わりません。
解説疲れてきたので前のまとめたやつ貼っておきます。

いかがでしたでしょうか。今回はわりと真面目に事細かく書いてみたつもりです。わからないことがあったら最初の貼ってある公式動画にコメントすると、直接回答をもらえると思います。(私の記事に関して答えられる部分は私でも答えられたりしますが、非公式な窓口なので悪しからず)

ではー。

この記事が気に入ったらサポートをしてみませんか?