見出し画像

男声人力ボカロのプロセスを問う

※人力ボーカロイドvsディープラーニングによる音声合成 についての記事ではありません。この記事内で、これ以降生成AIを匂わせる話題は出ません。


稀に合成ノイズのケロ声フェチもいますが、人力作者の多くは音声を任意のキャラクターに似せたいわけです。
出来上がった音声を似てないなぁと思ったら、本当に人力ボーカロイドという手法をメインで使うべきかどうか考えてもいい、という話です。

声のその人らしさについて

声のその人らしさを決定づけるのは、母音内のフォルマントの音量バランスと、フォルマント以外に鳴っている音のクセです。
多くのピッチシフターは、母音内のフォルマントを検出し、音量バランスを保ちながら、音階に合った周波数に変更します。
この際、フォルマント以外に鳴っている音が誤認識される場合があり、その人らしさが失われる一因となります。

声のケロケロ感(合成ノイズ)について

(音声学の知識がないです、ごめんね)

声のケロケロ感の原因は、似たような波形の周期が繰り返されることです。
声を引き延ばす際、波形の音量の減衰の傾きに従って適切な1周期を計算するのが理想ですが、波形編集ソフトでは波形が足らなそうな場所の1周期をコピペする場合があります。
ソフトウェアごとに仕様は違いますが、この辺りがどう処理されているか公開しているソフトは探してもあまりないです。(本気で探せば多分ある)
というように、長い音符ではコピペの回数が増えるので特にケロケロ感が増します。
UTAU式でも切り貼り式でも、自然な周期の波形が欲しいので、長い音素があるといいなぁ。

波形の周期に適切なバリエーションを持たせたいのなら、バカデカ音量でも聞き取れないくらい低い音圧で別の音や不可聴域を鳴らす(異なる波形を合成する)か、音量にメチャクチャ緩やかな傾きのフェードアウトをかけるくらいしか思いつきません。
他によさげな方法を思いついたらコメント欄に書いといてください

男声ボーカルのケロケロ感について

男声ボーカルにおいては、フォルマントの基底音が低いほどケロケロ感は忌避される風潮があります。
また、ポップス分野の男性ボーカルは、同分野の女声ボーカルに比べて声質の変更による抑揚付けが求められない傾向にあります。(女声ボーカルはケロケロ感の変更を抑揚や歌の味として認識されやすい。男声ボーカルはあんまりそうじゃない)
ケロケロ感を消したいのに、ケロケロ感を付与するツールを使うのは手段として適切でないのでは?ということです。

提案(忙しい人はここだけ読んでね)

キャラクターの声をボイスチェンジャーにかけ、自分が物真似できる声の設定を探し出し、欲しい音声を得るのはどうでしょうか。
人力ボーカロイドと同じく公式から注意されたらアウトなんだし、似てるほうがいいじゃんね!

以上、ボヤキでした。

この記事が気に入ったらサポートをしてみませんか?