SynthV調声解説 「綾を撮る」

調声晒し投稿祭で公開した動画の解説です。

といっても全部解説するとキリがないので冒頭の1フレーズ……のさらに冒頭の「そらに」の部分と+αで解説します。

最初の「そらに」の部分

音素表記方法と一部独自に使用している用語については以下の記事を参照してください。
音素編 #01 SynthVの音素
音素編 #03 主音素・装飾音素


調声の方針

調声において最初に決めるべきはどのように歌ってほしいかという方針です。当然ながらこの曲でもその方針を立てた上で調声を行っています。

今回の方針を簡潔に言い表すと「一人でどこかの駅のホームにいて、何も考えずに歌い出す」というものです。ただ、これではまだ細かなイメージが湧かないので具体的に踏み込んでいきます。

まずは舞台設定です。最初の方針にある「どこかの駅」が分からなければ何も決まりません。例えば「静かに歌う」としてもラッシュ時の新宿駅のホームとまともに人のいない辺境の廃駅のホームであれば全く歌い方が異なるでしょう。

今回の舞台ですが、その説明のためにこの曲を含めたもっと大きなシナリオから考える必要があります。というのも、この曲は去年(2023年)に制作したCD「綾を撮る」の1曲目です。
参考 : しおばな祭新譜「綾を撮る」のあれこれ

このCDのストーリーがどこかの駅から始まります。そのどこかの駅というのが岩手県大船渡市にある綾里駅です。実際にはこの駅をモデルにした架空の駅を舞台としていますが、イメージしやすいように便宜上綾里駅としておきます。

この綾里駅ですが、電車が停まるのは1-2時間に1本、1日の平均乗降客数も50人未満(2021年)と少ないです。(リアス線の他の駅と比較すれば多いです。)
この様なデータを出して何が言いたいかといえば、そういう静かな駅ということですね。1日の中で乗降客数0人になることも当然あります。私の訪問時は(私を除いて)0人でした。そして舞台はそんな時間帯の綾里駅のホームです。

そんな場所で突然思いついたように歌います。私の千冬ちゃん像にもなりますが、静かに歌う、というのがこの曲でのイメージです。

「そらに」 || h - s o - r a - n i h N n - h ||

ブレスの代用 -「そ」 || h - s o ||

最初からなんかおかしなことしてますがちゃんと意図して突っ込んでいる音素です。

まず前提からですが、この曲は「思いつきで突然歌い出す」というイメージで作っています。この「突然」がポイントで、今回は「急に息を吸って声を出す」という歌い方で再現を試みています。

つまり最初のノートの構造は
息を吸う → sの発音 → oの発音
となります。つまり想定される音素は
|| br s o ||
です。

普通であればこれで音素の話は終わりそうですが一歩踏み込んだ表現を考えます。ここでやりたいのは「ブレスからほぼ間を空けずに || s || の発音に移る」ことです。
しかし先ほどの || br s o || だと|| br || と || s || の間にどうしても間が空いてしまいます。|| br || の音素の最後が空白になる仕様のため、ノートや音素の長さを変えても対処しきれませんので、別の方法で対応しなければなりません。

ここで取れる手法としては二つ、①別の音素で代用する、②別トラックで発音させる、です。冒頭では①の方法を用いています。

|| br || の代用として使っている || h || がまず何者かですが、この後は無声声門摩擦音と呼ばれる音です。声門を狭めて通気を遮ることで発音されるため、持続する子音となります。
発音場所としては喉の奥となり、普通に呼吸するときの音の発生とも大きく変わらないため呼吸音の代用としても使用できることが考えられます。
単独の || h || を入れた後、より息感を増すためブレスをささやきに、声感を減らすため有声/無声音を無声音に振ります。するとブレスの音素でなくともブレスの様な音を再現できます。

口を閉じるための装飾音素 - 「に」 || n i h N n - h ||

1ノートに5つの音素を突っ込む正気の沙汰じゃないことをしてそうですが想定範囲内です。

このノートの構造としては || n i || の主音素、|| h N n || の装飾音素、そこに続く息の表現としての || h || となります。|| n i || はそのまま「に」を表すので、後半の装飾音素の塊が表現上のポイントとなります。

まずこれらの一連の装飾音素が何をやりたいかですが、これが連続するノートの最後であることも含め発音の終わりで息を出しながらやんわりと口を閉じることを表現することを目的としています。

最初に現れる || h || は前項でも触れた通り、息の音として入れている音素となります。しかしここではブレスのようなはっきりとした一音ではなく、発音の終わりで息を出し終えるときの一瞬の音の表現を目的としています。

次の || N n || は通常は両方とも日本語の「ん」に割り当たる音です。|| N || は口の奥で閉鎖を作る口蓋垂鼻音、|| n || は舌先と歯茎で閉鎖を作る歯茎鼻音となります。
この2つの音素を連続させると口の奥から前へ通気を止めていく、すなわちゆっくりと口を閉じるような動きになります。もちろん、完全に閉鎖するわけではないので、ノートプロパティやテンション・ブレス・有声/無声音などを活用してより自然になるように調整します。

そして最後の || h || ですが、これも用途としては息の音で、最後に入れることで発音の終わりで息を完全に抜いていくことを目的としています。

今回の装飾音素は主音素の末尾の短い時間に現れるので、ノートプロパティの長さを変えて末尾のみに集中させ、テンションやブレス、ラウドネス等もそれに合わせて声が弱くなるようにします。
(ロングトーン等で元のノートが長い場合はノートプロパティの長さだけでは賄えない場合があるので、その場合はノートを分けることもあります。)

これらの各個の音素を繋げていくと次の様な流れが生まれます。

  1. || n i || で「に」と発音

  2. || h || で「に」の発音の終わりに口内を狭めたときの呼気を表現

  3. || N n || で口をゆっくりと閉じる

  4. || h || で最後に口内に残った空気を全て吐き出す

母音の口の動きを考える - 母音 || o - a - i ||

実際に行ったことの解説ではなく更に手を入れるなら、という内容ですが、この3つのノートの母音は私としてはまだかなり調整の余地がある部分だと思っています。

まず母音四辺形を用いてこの発音の口の動きを考えます。|| o || は右上付近、 || a || は左下、|| i || は左上に位置します。これを母音四辺形の上でなぞってみます。

|| o - a - i || の母音の動き

今回の調声の方針の「思いついたように突然」「静かに」というイメージ、そして歌い出しということを考えると、この音素では少し大きく動きすぎかもしれません。
この中では || a || / a / が大きな動きになる要因と考えられますので、|| a || にあたる音を上に移動してみます。すると口の動きは先程よりも小さくなりそうです。
ではその様な音素が存在するのかですが、当然日本語には存在しない音素になりますので、英語の || ax || / ə / 等を使うことでこういった動きを作ることができます。

次に子音がどうなっているかを考えます。特に最初の || s || は持続する、かつ目立つ子音となるので、日本語の楽曲においても || s || 単独で主音素を形成するケースもみられます。
ということは、一番最初の「そ」にはそもそも || s || のみかもしれないし、母音があってもそれは短く弱い音になることが考えられます。
そして || o || / o / ですが、この音は円唇母音と呼ばれ、唇を丸くして発音する母音となります。
さて、先程の || s || の特徴と合わせて考えた場合、|| o || は円唇と呼べるほど唇を丸めているでしょうか?
もちろん明確な答えは無いのですが、こういった場合に非円唇の母音を使うという手段と取ることができます。今回の場合、|| o || / o / に対して直接非円唇の音素となるのは 中国語標準語の || 7 || / ɤ / が存在するので、これを割り当てることができるかもしれません。

これらのことを母音四辺形の図に反映すると次のようになります。

置き換え後の母音の動き

理論で考えて代わりの母音の候補をあげていますが、当然ながらそうすれば綺麗に歌ってくれるとは限りません。/ a / から大きくずらしたり、円唇を非円唇にしたりすると日本語として識別できる音にも変化が生じる場合があるので、実際に聞いて最適な母音を探し出していきます。

「に」のピッチ

ノートに表示されているピッチラインとパラメータパネルのピッチを見比べてみるとちらほら一致してなさそうな部分があります。
この三音でも、「に」のピッチが一致していないように見えます。それもそのはずで、生成されたピッチの上にノートプロパティで色々手を入れているためです。

そもそもですが、今回歌ってくれている千冬ちゃんはピッチの起伏が弱い傾向にあります。言い換えるとあまり表現を加えずに楽譜通りの長さ・高さで歌います。
しかし裏を返せばしゃくりやビブラートが欲しいところに入らないということにもなるので、そういう部分は手作業でピッチを修正します。

まずノートの頭ですが、ここはいきなり元の音程を出すのではなく、少し低い音から元の音程へ移るようにしています。
とは言っていいますが、ここは(細かな修正をしているとはいえ)最初からこの様な歌い方になっていました。が、しゃくりを入れる修正をするのであれば、ピッチ推移の「長さ」「左」の項目を調整すれば簡単に修正できます。

そして末尾の上げて落としている部分ですが、このピッチ変化は音素の解説でしたような口を閉じる影響で発声部が細くなりピッチが高く、最後に息を出し切るところで開放されるので低くなる、というイメージです。これもパラメータパネルではなくノートプロパティで調整しています。

全体の表現パラメータ調整

この曲においては「ゆっくりと静かに」を意識し、フレーズ中のアクセントになるタイミングは全体的に少し遅れめにしています。これが一体どのようにパラメータパネル上で現れるのかというと、主にテンションとブレスに現れます。

「に」に注目すると、テンションが一番高くなるのはノートの最初ではなく、少し遅れた部分になっています。だいたいピッチがノートの音程にある場所に合わせてテンションを高くしています。
ブレスも同様に下側に振っています。ピッチに合わせて発声における息成分を減らし、はっきりと発音するようにしています。

軽く全体の方針を解説したところで、この2つがどういう考え方で調整しているかに触れていきます。

テンションは方針に合わせ、基本的に0をあまり超えないようにしてゆったりの方で推移するようにしています。想定している歌い方でも声を張り詰めるということはほとんどありません。また、ときどき強くなる箇所において少しだけ0を超えるようにしています。

ブレスは相対的に息が多いことを想定しなるべくささやきの方で推移するようにしています。声が強くなる箇所では相対的に息が少なくなるので0に寄せるように、場合によっては少し0以下に振るようにしています。このように調整した場合、パラメータパネル上ではテンションと相反するように動きます。

有声/無声音は声を出そうとして出しているかを主軸に調整しています。例えばフレーズの始まりは声があまり出にくいだろうとか、終わりでは発声自体が薄れていくだろうというイメージです。今回は「ゆっくりと静かに」という方針なので、声をはっきりと出す割合は少なくなると想定されるため、有声/無声音を少し深めに、かつ割合多めに調整しています。

トーンシフトはこの場においてはいい感じに上下の周波数を持ってくるみたいに捉えてください。特にフレーズの終わりの装飾音素に対してせり上げている用例が多いのですが、これはフレーズの終わりのピッチ変化の補佐的な用途で使用しています。
なお、そういう表現を目的としてトーンシフトをいじると想定外の声量の変化が発生して破綻することがあるので、ラウドネスをうまく使って目標の表現に近づけます。

最後にラウドネスですが、他のパラメータによる想定外の声量の変化の抑制や、それらでは表現しきれない大きなボリューム変化を主な目的として調整しています。

「そ」のブレス・有声/無声音

|| h || のブレスの後よりブレス強めに振ってない?
吸った息が最初に多く放出されるイメージ
摩擦音はブレスにふると超強くなるのでラウドネスで抑え込む

「そ」のブレスと有声/無声音ですが、ブレスはささやきに、有声/無声音は無声音に大きく振っています。意図としては息を吸った直後の音なので息が多く、声がまだはっきりと出してていない、というイメージの再現でこのようにしています。

ここで問題になるのが子音の || s || です。これは持続する摩擦音のためブレスの影響を大きく受け、ブレスをささやきに振っていくとどんどんボリュームが大きくなります。
後に続く母音の || o || ですが、声がはっきりと出ていないことを表現するためテンション・ブレスに加え有声/無声音が無声音の方に振られています。つまりかなり弱い発音となっています。

やりたい表現のためにパラメータを動かすと子音がめちゃくちゃ強くて母音がめちゃくちゃ弱いノートが錬成されます。

そういうのも場合によってはありですが今回はそうではありません。できれば子音もある程度弱くあって欲しいものです。
そこで音量調整のためにラウドネスを少しいじります。|| s || が弱くなって欲しいので || s || の範囲のラウドネスを下げ、極端な変化を避けるためにゆっくり元に戻します。

他部分の調声技術

「お」の代用 - 「ほのか」 || h u - n ow - k a N n ||

「ほのか」はそのまま入力すれば || h o - n o - k a || となります。見ての通り元の音素からかなり加工されています。ここで注目したいのは最初の母音が || o || ではなく || u || である点です。

日本語の発音でそもそも「う」に聞こえそうなものですが、実際のところそこまで「う」という感じはしないですよね。(ちゃんと聞き取ろうとすれば「う」であることがわかります。)

なぜ || o || を || u || で代用するのかですが、まずはこのフレーズで何を実現したいのかから紐解いていきます。

このフレーズの元々の母音は || o o a || となります。今回の方針からしてフレーズの頭はゆっくりとした立ち上がりにしたいと考えます。すると最初の2音の || o o || になんらかの変化が欲しくなります。
ここで最初の || o || をもっと弱い音素に変えられないかということを考えます。|| o || については先にも触れたとおり、円唇で発音されているかという軸があります。それに加えて || o || ほど口を開けているかという軸も加えます。

/ o / の非円唇の音素は / ɤ / です。そして円唇のまま / o /より口の開閉度が小さくなるのは / u / です。そして / u / の非円唇の音素が / ɯ / です。
これら4つの音素は母音四辺形の右上に存在します。つまり / o, ɤ / の弱い発音として / u, ɯ / を割り当てられる可能性があります。
そしてこの / ɯ / が日本語の「う」、SynthVの日本語の音素では || u || にあたる発音です。

さて、ここでイメージしていた口の動きというのを非円唇・円唇を横軸、口の開閉度を縦軸として図に表すと、最初の || o || は / ɯ / 付近から始まり、次の || o || で / o / のあたりに動きます。

作りたい || o - o || の口の動き

この動きをSynthVの音素で表すと || u o || となります。今回はさらに英語の二重母音 || ow || にすることでより細かな音の動きを表現しています。

別トラックから音を付加する - 「さざめく」 || s a - (s) z a N m - m e N - k u ||

「ざ」で仕様上イメージ通りに出来ないが故に、ちょっとしたテクニックを使った箇所になります。

ここでやろうとしていることですが「ざ」の発音において || s || の発音から入ってそのまま || z a || の発音に移ろうとしています。しかし || z || は発音の直前に少しだけ間が空いてしまいます。
連続して || s z || と入れて || s || をめちゃくちゃ長くして || z || をめちゃくちゃ短くすればほとんど繋がっている状態にはなるのですが、|| z || はある程度長さを保っていてほしいので、この方法では解決できません。

じゃあ無理じゃん、となりますがまあ無理です。しかしそれは1トラックでやればの話です。1トラックで無理なら別のトラックから音を追加すればうまくいくかもしれません。

今回の場合だと || z || の前に || s || の音を入れたいのでメイントラックに || z a || のノート、追加したサブトラックに || s || のノートを || z || につながる用に置きます。
置いたままだとそれぞれの子音がそのまま干渉してしまうので、ラウドネスを下げたり、無声化したりしてフレーズに合うようにブレンドします。
この過程がうまくいくと、アカペラでも綺麗な発音に収まります。

トラックを分けてブレンドする

あとがき

調声、とても、つらい
(でもたのしい)

この記事が気に入ったらサポートをしてみませんか?