見出し画像

【Part2】自分の声でUTAU音源!

こんにちは、ブロッコリー大好きGillbroです。
今回は自作音源を制作する上で一番重要な最初の工程「音声の録音」をやります!すぐに録音に移りたいところではありますが、事前知識が必要なのでまずはそこから解説していきますね。



録音の種類

はじめて、合成音声に挑戦する方は何をどうやって録音すればいいかわからないと思います。なので、まずはUTAUの仕組みから説明していきます!
UTAUはWAVE形式の音データを大量に録音してそれを切り貼りすることで自然な歌声を実現するという波形接続型音声合成方式を採用しています。この方式は音声合成を歴史の中でも最初に開発された技術であり、今あるDNNを利用した音声合成技術よりもよっぽど人力です。

そして、UTAUではその音の繋ぎ方に3通りの方法が存在します。

  1. 単独音
    最も基本的な音源方式です。母音・子音を一音ずつ録音し、切り貼りすることで歌います。その単純さゆえに録音時間や原音設定量が少ないため短時間で仕上げることが可能です。(他二つに比べると音質は悪い)

  2. 連続音
    複数の音韻単位をつなげた音声情報を利用して、合成音声が持つ音の不自然さを減少させる音源方式です。UTAUでは、VCV(母音、子音、母音)を合成単位として波形編集を行うVCV規則音声合成方式を採用しています。あらかじめ用意された文章を録音するため、音のつながりから単独音よりも自然な歌声を実現します。ただ仕上がりを意識すればするほど莫大なデータをとる必要があるので、根気が必要です。

  3. CVVC
    音素をCVとVCに分割して取り扱う音源方式です。ダイフォン音声合成とも呼ばれています。 従来の単独音(CV)では欠落しているVCの音素を取り入れることで連続音よりも収録の効率性や音源のコンパクトさを高めたものになります。単独音よりも音が滑らかで連続音よりも短時間に仕上げられることが特徴ですが、原音設定の難易度が高く初心者には不向きかもしれません。

今回は良い音質の音声合成を目指すために、連続音での録音を行います。

モーラ数

モーラというのは、一定の時間的長さを持った音の文節単位のことです。もっと簡単に言うと、日本語の一音の数え方です(但し、拗音を除く)。
例えば、「りんご」は3モーラ、「きょうりゅう」は4モーラといった感じです。

連続音では、この「モーラ」という単位が重要になってきます。それは、これから指定された文章を読み上げていくのですが、その読み上げる文章のモーラ数を決める必要があるためです。基本的にモーラ数が多い方が、録音時間が短く、音質も良くなりやすいです。一方で、モーラ数が多すぎるとそれだけ読み上げる文章も長くなります。相当な肺活量がない限り一定の音程・音量で録音することは難しいでしょう。

今回、私は8モーラで録音しました。8モーラが厳しいといった方は、もっと少ないモーラ数の文章も用意されているのでそちらで試してみて下さい。

録音リスト

録音リストとは先ほど説明したモーラ数に応じた連続音を録音するために必要な文章がまとめられた表です。主に、通常音声と特殊音声の収録がされています。特殊発声は必ずしも必要ではありませんが、エッジボイスや巻き舌など、歌の表現力を上げるために有効な音声なので、リアリティを求める場合は是非録音してみましょう。
私は、今回くるくる数字様の『ゲキヤク』に収録されている音源データを参考にしました。また、その録音リストを作成したので、8モーラの連続音を録音する場合は利用してみて下さい。尚、OREMO用には作ってないです。OREMO使ってなかったので…申し訳ない。(通常発声156種類、特殊発声72種類)

また、巽様が各モーラ数における録音リストを配布しているのでそちらも参考にしてみて下さい。こっちはOREMO対応してます。

ガイドBGM 

録音リストを自己流で読み上げてもおそらくうまくいかないので、録音時は是非ガイドBGMを利用しましょう。
もちろん、私の制作した音声合成のwavファイルを確認していただいても構いませんし、以下リンクでいろんなクリエイターの方がガイドBGMを配布しています。ありがたく使わせていただきましょう。

録音時の注意事項

録音する前に特に注意していただきたい部分です!私も割と間違えて何度もやり直したことがあったのでお気をつけて。(しんどかった)

  • マイクにノイズが入っていないか
    少しでもマイクにノイズが入っていると最後の最期で音質の悪さが目立ち録り直しといった事態になってしまいます。なるべく静かな環境で行いましょう。(特にケーブルの接触不良で途中からノイズが入ってしまったり、録音中にリップノイズが入ってしまったりする場合もあるので、一気に全部録音せず、こまめに確認するようにしましょう。)

  • 音域が自分に合っているか
    特に異なる性別の音声データを参考にしている場合は要注意です。
    何も考えずに参考音源の音域で歌っていると自分にとっては高い音域なのに、何百回と録音しなければならないなんていう地獄が始まってしまいます。まずは、自分の歌唱できる音域を知ってから録音することにしましょう。因みに、録音する音程の数に制限はありませんが、最低音と最高音含め、5個くらい録音しておけば間違いないでしょう。

  • モノラルで録音しているか
    UTAUでは、ステレオ音源の音声データは対応していません。後からモノラルで出力することもできますが、最初からモノラルで録音しておくと無難でしょう。

  • テンポの設定を間違えていないか
    基本的に速すぎず、遅すぎないテンポであれば問題ないですが、極端なテンポで録音すると、音質の劣化につながります。よく見るテンポだと120くらいですが、私は135で収録しました。135でも問題はなかったのでこの辺りを参考にしてみて下さい。

録音してみよう!

お待ちかね、録音の時間です。
DAWで録音する場合とOREMOで録音する場合に分けて説明していきます。

DAWで録音する場合

私はStudioOneで録音しましたが、どのDAWソフトでも機能は大方同じだと思うので、最低限設定しておくことだけ説明します。

  • 収録するトラックの長さを一定にする

  • 音域ごとに色分け、トラック分けを行う

  • 16bit/44.1kHzに指定する

以上です!私の場合は最終的に以下のような感じになりました。このあとMIX 作業をするので、まだ出力しないでくださいね。

OREMOで録音する場合

私は前述した通り、OREMOを使用しなかったので、以下サイトを参考にしてみて下さい。多分録音はこちらの方が楽ですが、MIX作業はDAWの方が楽です。自分の作業環境とモチベーションに相談してみて下さい。

おわりに

録音お疲れ様です。もうこの時点で大分達成感を感じますが、まだ歌わせることは出来ないので適度に休憩しながら頑張っていきましょう。
ところでその音源、まだピッチがずれてたり、少しノイズが入っていたりしませんか?次回は、その録音した音源の音質をさらに良くするためにミキシングを行っていきます!

ここまで読んでくださり、ありがとうございました!

この記事が気に入ったらサポートをしてみませんか?