無料から始める歌モノDTM（第23回）【調声編⑤発音その1・歌詞入力の基礎】

金田ひとみ

2023年6月12日 14:06

はじめに

はじめましての方ははじめまして。ご存知の方はいらっしゃいませ。
ノートPCとフリー（無料）ツールで歌モノDTM曲を制作しております、

金田ひとみ

と申します。

【調声編】5回目です。
改めて基礎回を未読の方は、一読をオススメします。かなり長いですが、私の調声の方針になります↓

【調声編】全体の流れです↓
終わったところは取り消し線を引いています。

＜歌声＞：音声、音価・音高、トランジェント・アタック等について
＜発音＞：子音・母音、フォルマント、ピッチガチャ、ブレス等について
＜抑揚＞：ビブラート、コブシ、シャクリ、フォール等について
＜効果＞：エフェクター、ハモ等について

順番はDTMer/ボカロPに馴染みやすいであろう、DAWでの曲制作順に則っています。
以前の記事は最下部の「前の記事」から、またはマガジンとしてもまとめていますのでそちらからご参照ください。

今回から別の枠組みになります。
＜発音＞についてです。
DAWの曲制作における音を出すことそのものに相当します。

いやいや、DAWにノートを打ち込んだら勝手に音は出るでしょ、とお思いかもしれませんが、それは近年のコンピュータ（ハード）やソフトが大幅に進化したおかげです。
本来は0と1のデータに過ぎないものを、視覚的にわかりやすいように表示しているのがDAWのピアノロールでありノート。
音についても聴覚的にもわかりやすいように、打ち込めば即再生されるようにプログラムされているだけで、コンピュータという機械の内部ではあくまで電気信号のデータです。そのデータをソフトが読み込んでプログラムに則ってパソコンなどの再生装置に送り返し、スピーカーやヘッドホンから再生される、という流れです。
現実の楽器や声のように出そうとすればすぐ出るってものではない。
古今東西のエンジニアやプログラマーたちに感謝しましょう。

実際DAWで音が再生される際は、パソコン内部ではすさまじい速度で計算が行われています。
性能が低いと処理が追い付かなくなって、音が飛び飛びになったり最悪DAW落ちします。私はノートPCで制作しているのでホント怖い。ちょっと作ったらすぐCtrl＋Sキー！　すぐさま保存します。
（DTM初心者がまず最初に覚えるべきは音楽理論なんかよりCtrl＋S！）

私が利用しているバージョンのNEUTRINOは楽譜データを読み込ませて、そこから音声合成するという手順を取っているため、なおさらDTMの音＝データの意識が強いです。
逆に言えばデータをいじってナチュラルな発声を作っているわけで、そのいじり方を掴んでしまえば理論上は100％再現可能です。（パソコンやソフトや再生機器の性能にもよりますが。）

さて、今回から解説するのは、コンピュータで音を鳴らす仕組みのほうではありません。それはエンジニアやプログラマーのお仕事。
この記事は歌声ソフトの「調声」についてですので、プログラマーが用意してくれたソフトを上手に使う方法、そしてコンピュータではなく「人間」が音を鳴らす仕組みについてです。要は＜発音＞ですね。
ギターの伴奏を作るのに打ち込みのコツやギターの仕組みを知らないとナチュラルな音にならないどころか、現実には不可能な演奏で作曲してしまうかもしれません。それはそれでDTMの面白さではあるんですが。
仕組みを知るとより深く、より自然な発音について学べると思います。
それを調声のレベルアップに活かしていきましょう。

歌詞入力の基礎

まずは項目名通り発音の仕組みや各子音母音の特徴から……とも考えたのですが、専門的過ぎて退屈ですし、調声においてはあまり実践向きではないので、理論的なことはその都度補足的に解説する程度にします。
ちょっと予定変更。

今回の解説は、ある程度歌声ソフトを使ったことのある方ならすでに身に付いているかもしれませんが、
歌詞入力の基礎
についてです。
もう知ってるし実践してるよ、という方も再確認のつもりでお付き合いください。
意外と知らずにやっていたり、勘違いしていることもあるかもしれません。

一応NEUTRINOで使用可能な文字一覧を先に貼っておきます。公式サイトからpdfをダウンロードできます。
ソフトやバージョンによって入力可能/対応可能な発音が違うこともあると思いますので、各ソフトの説明書等をご確認ください。
NEUTRINOは下記一覧以外でも発音可能なものがあるようです。参考程度で良いかと。覚えたりする必要はありません。

さて、
歌声ソフトはノート（音符）に当てはめて入力された文字に従って発声します。
コンピュータ的にはノートのピッチ・タイム・デュレーションの数値データに従って、シンガーの子音・母音等の音声データを再生または合成します。
AIシンガーは膨大な学習データからダイナミクスも含めてある程度ナチュラルに再現してくれます。
しかし歌声ソフトを利用したことのある方ならご存知かと思いますが、歌詞の文字をそのまま音符に当てはめていくと時々変な発音になります。

「私はパーティー会場へ向かっています」

歌詞っぽくはないですが、この例文をひらがな（またはカタカナ）に分解してそのままメロディーに当てはめていくと、おかしな発音があちこち出てきます。というかエラーになることも。
「わ/た/し/は/ぱ/ー/て/ぃ/ー/か/い/じ/ょ/う/へ/む/か/っ/て/い/ま/す」
ではちゃんと歌ってくれません。

例文「私はパーティー会場へ向かっています」

助詞「は」「へ」

分かりやすいのは助詞の「私は」の「は」や「会場へ」の「へ」ですね。
「は」は「わ」、「へ」は「え」と読むので日本語話者ならすぐに気づきます。
ですので入力するときは「わ」[wa]、「え」[e]と本来の発音に沿って当てはめてやります。

これが結構ミスる（笑）。歌詞入力に慣れたDTMerやボカロPは無意識に「わ」や「え」と打てるんだとか。私はそこまで到達してないです。

普段意識することはありませんが現代の文章用の書き文字は、第二次世界大戦後に制定された「新かなづかい」に沿っています。
それ以前は、例えば「今日」を「けふ」と書いて「きょう」と読んだりと文字と発音は一致していませんでした。学校の古文の授業なんかでも見たことがあると思います。
それでは不便だということで戦後に読み書きが統一されて、そのうちで生き残ったのが助詞の「は」と「へ」のふたつ。主語や目的語の目じるし的な役割を持つ助詞まで統一しては逆に読みにくい、となったようです。

面倒ですが実際の発音に沿って入力しましょう。

拗音（小さい「ぁぃぅぇぉ」「ゃゅょ」）

ひらがなやカタカナに分解すると言っても、「パーティー」を「ぱ/ー/て/ぃ/ー」と区切ってノートに当てはめてはダメですね。「ティ」は「テ」+「ィ」ではなく一つの発音です。
こういったまとめてひとつの発音になる小さい「ぁぃぅぇぉ」「ゃゅょ」が付いた発音を拗音（ようおん）と言います。
（日本語の音の区切り方で考えた時の1モーラになる、とも言えます。）

拗音は外来語に多いイメージですが、日本語でも「きゃ/きゅ/きょ」の[ky]の発音や「しゃ/しゅ/しょ」の[sh]の発音、例文の「会場」「じゃ/じゅ/じょ」の[jy]の発音などは普通にあります。
同じ[ky]の仲間でも「キェ」や、[sh]なら「シェ」、[jy]なら「ジェ」は日本語ではあまり聞かない発音です。方言にはあったりします。
傾向として「ぁぃぅぇぉ」が付くものが外来語に多く、「ゃゅょ」が付くものは日本語にも多いようです。特に音読み。
そもそも音読みは昔の中国語の読みを元にしているので広い意味では外来語かも。

ただ言語は地域や時代によって変化していくものなので正確な発音や由来はともあれ、実際の発音に近い音、そのように聴こえる音を探して入力していくことになります。

「さぼる」とか「たばこ」とか「背広」とか完全に日本語化しちゃってるものもあります。
外来語と分かっていても「ウイルス」を「ヴァイァラス」、「ワクチン」を「ヴァクシーン」みたいにあまりに英語っぽく発音させても逆に違和感あります。

今のところNEUTRINOでは一覧表に無い「テャ/テュ/テョ」の発音はちゃんとできません。どうやら音声合成はできますがちょっと舌っ足らず。
英語よりはロシア語やギリシャ語っぽいですかね。あまり歌詞で使うことも無いかと思います。
「♪日曜日は市場へ出かけ〜……テュリャテュリャテュリャ〜」くらい？

「ニャ/・/ニュ/ニェ/ニョ」は発音できます。
猫語？（笑）
ではなくて、NEUTRINOなのに「ニュートリノ」と発音できないのはマズい。
「(」・ω・)」うー！(／・ω・)／にゃー！」

それと現代日本語では珍しい発音にはなりますが、「クヮ」「グヮ」と小さい「ゎ」の付く発音もNEUTRINOには一応無いです。
「♪ケロケロケロケロぐゎぐゎぐゎ～」はちょっと不得意。

「クァ/クィ/・/クェ/クォ」も一覧上には無いので[w]が入るような一部の発音はそれほど得意ではないようです。音声合成自体は可能でした。

もし「4分の1」の意味の「quarter（クォーター）」のような発音をナチュラルにさせたい場合は、「クォ/ー/タ/ー」で強引に合成するか、「ク」＋「ウォ/ー/タ/ー」で生成したあとタイミング調整でもそれっぽく発音させられます。
具体的には「ク」の母音[u]を早めることで「ク」の発音自体をごく短くしたのち、「ウォ」の子音[w]を[u]に被せるギリギリまで移動させて、元々[u]があった位置に「ウォ」の母音[o]を移動させるような操作になります。
「ク、ウォ」ではなく「クォ」とひとつにまとまった英語っぽい発音に調声できます。

「クォーター」調声例。
「く」の発音が一瞬しかされず、[u]があった位置に[o]が移動されているので一つの音に聴こえる。
※今回メロディーに乗った歌声ではないので音声はありません（汗）

のちほど別に解説しますが、「’」（アポストロフィ）を使って「クォ」をナチュラルに発音させる方法もあります。
ただ個人的にはタイミング調整のほうがよりナチュラルに微調整することができると感じてます。アポストロフィだとどうも[k]の音が硬くなり過ぎる。

注意点として、[u]に[w]を完全に被せてしまうと、子音[w]単体の音が聴こえず、[kwo]「クォ」ではなく[ko]「コ」に聴こえてしまうので気をつけてください。
また「ク」をあまりに短くし過ぎると発音そのものがバグってしまい、かすれたノイズのようになることもあるので、上手に聴こえるポイントが見つかるまで試してください。

聴かずとも波形で分かる「クォーター」調声失敗例。
[k/u/w]を短くしすぎている。
赤線のピッチ波形が始まるまでは発音が上手くできずにノイズが発生。
青線のダイナミクスも連動している。
「コホー」みたいな雑音。

他に気づきにくいのが「イェ」。文字では「い＋ぇ」ですがあ行ではありません。表記・発音上はや行の[ye]です。
歌詞だと結構登場しますね。NEUTRINOも発音可能！　イェーイ！

このあたりの発音そのものの有無は歌声ソフトの性能にもよりますので各ソフトの説明書を参考に、前回までで紹介したタイミング調整機能等を駆使してナチュラルに聴こえるようがんばってください。正解は無いです。

入力文字、ローマ字表示、実際の発音の不一致

上のような細かい子音の発音の違いまで調声していこうとした時にちょっと気に留めておいたほうが良いのが、
書き文字や五十音表の行で分類されるひらがな・カタカナで書いた時の文字と、一覧表や調声ツール上などのローマ字に分解した表示、そして実際の発音は必ずしも一致しないことです。
先の「イェ」もそうですね。
書き文字では「あ行」っぽいですが、一覧表上では「や行」で、調声ツール上は[y][e]です。
昔のひらがな・カタカナなら「や行」に「ゑ・ヱ」がありましたが現代ではほとんど使われません。
ヱヴァンゲリオンくらい？
お笑いコンビのすゑひろがりずがいたわ（笑）　それっぽく聴こえる英語ネタ面白いですよ。調声に役立つ、かも？

文字の話に戻すと、例えば現代日本語では「ち」や「つ」はた行ということになっていますが、発音的には「ティ」「トゥ」のほうが本来自然です。
[ta / ti / tu / te / to]=「タ/ティ/トゥ/テ/ト」です。
実際のローマ字表記は
[ta / chi / tsu / te / to]=「た/ち/つ/て/と」。
日本語歌声ソフトはそのあたりの違いは自動で判断してくれるので、「ち」「つ」と入力すれば[ti][tu]ではなく[chi][tsu]で勝手に表示・発音してくれますのであまり気にすることは無いかと思います。
一応タイミングやピッチ調整の際に、「ち」が[ti]じゃない！とか混乱しないように。[chi]です。

上段「た/ち/つ/て/と」＝[ta / **chi** / **tsu** / te / to]
下段「た/てぃ/とぅ/て/と」＝[ta / ti / tu / te / to]
た行=[t]音ではない。

それから、くだけたアメリカ英語では「パーティー」が「パリィ」のような感じで、[t]の発音が日本語のら行っぽい発音に変化する場合があります。
弾音、Tの有声音化、Flap Tなどと呼ばれます。
実際の感覚としては[t]が変化して短い[d]の発音になるようなイメージだそうですが、日本人にはら行に聴こえる。リスナーもほとんど日本人だと思いますので聴こえるように調声して問題ないです。
むしろ「パリピ」の由来「Party people」を、「パーティーピープル」と歌わせてはダサい。拗音を上手く調声する必要がありますが「パリィピポゥ」のほうが今どきっぽくて発音として近いです。
英語風に調声したいなら小ネタとして使えます。

た行の他にはさ行、ざ行の
「さ/し/す/せ/そ」、「ざ/じ/ず/ぜ/ぞ」も
[sa / shi / su / se / so]、[za / ji / zu / ze /zo ]。
「し」、「じ」だけローマ字表記は別の仲間。
シャ行、ジャ行という言い方は無いですが、それぞれ
「シャ/スィ/シュ/シェ/ショ」、「ジャ/ズィ/ジュ/ジェ/ジョ」で
[sha / si / shu / she / sho]、[ja / zi / ju / je / jo]
となっています。
発音と表記がごっちゃで混乱しますね。

まだ他には
「ファ/フィ/・/フェ/フォ」の[f]
「ツァ/ツィ/・/ツェ/ツォ」の[ts]
「ヴァ/ヴィ/ヴ/ヴェ/ヴォ」の[v]
などが代表的な拗音です。日本語にはあまり無い発音。
上の例で[f]の中黒点（ウ段）は[fu]は「フ」になります。
日本語では「ふ」はは行[h]の仲間になってますが、表記上は[fu]で[f]の仲間です。

ただし補足的に解説しておくと、厳密には日本語の「ふ」と英語の「f」の発音は別ものです。
日本語の「ふ」は正式な発音記号だと[ɸ]で、無声両唇摩擦音と言います。上下両方の唇をすぼめて突き出して発音します。なので両唇音。ろうそくの火を吹き消すイメージ。空気の流れが唇に挟まれて擦られる（こすられる）ことで音が出るので摩擦音。
一方、英語の「f」は発音記号も[f]で無声唇歯摩擦音に分類されます。下唇に上の前歯を当てて発音します。なので唇歯音。中学1年の英語の授業で「くちびるを噛む」なんて説明された方もいるかもしれませんが、前歯を軽く当てる程度です。完全に噛んでしまって空気が流れないと摩擦音になりません。
日本語に無い「ヴァ/ヴィ/ヴ/ヴェ/ヴォ」の[v]は有声唇歯摩擦音と分類され、[f]と同じく唇に歯を当てます。
有声音/無声音の違いは声帯の振動の有無です。喉奥がガラガラ鳴ってるかどうかの違い。
「f / h / k / p / s / t ……」などの子音は無声音で、その他日本語で「゛」（濁点）が付いて濁音になる「b / d / g / v / z」や、「m / n」（鼻音）「l / r」（流音）などの子音、「a / i / u / e / o」などの母音は有声音に分類されます。英語発音でよくある無声音の子音単体発音時は実は声帯が震えていません。
「ふ」に「゜」（半濁点）の付いた「ぷ」は無声両唇破裂音。声帯の振動は無く、上下両方の唇で空気の流れを止めた後、急に破裂させるように出します。発音記号は[p]。いわゆるぱ行です。
「ふ」に「゛」の付いた「ぶ」は有声両唇破裂音。声帯の振動が有り、同じく上下両方の唇で空気の流れを止めた後、急に破裂させるように出します。発音記号は[b]。ば行。
発音の小難しい分類名が、なんとなくお分かりいただけますでしょうか。
ただしこんな感じで発音記号まで突っ込みだすと本当にキリがないので、基本的にはあくまで日本語をローマ字で表記したとき、つまり調声ツール等で表示されるものを中心に解説していきます。

義務教育で習ったと思いますが、ローマ字で書き分けのある発音は、た行・さ行・は行などの仲間であっても、発音上は実は違う分類だと一応確認しておきましょう。子音の調声の際に見分けが付けやすいです。

キーボードでのローマ字入力との不一致

「じ」「ぢ」や「ず」「づ」のように文字では使い分けするものも、NEUTRINOの表示・発音は[ji][zu]で統一されています。
たとえば「かなづかい」を「かなずかい」とどちらで入力しても問題ないです。どちらも[zu]で表示・発音されます。

一応パソコンのローマ字入力では［Z→U］が「ず」、［D→U］が「づ」と変換されます。出力される発音は同じなのでどちらでも構いません。
……が、ローマ字表示で[du]の発音は本来「デュ」のはずです。
これまた入力と表示が違う……。

パソコンキーボードで「デュ」と入力したい場合は［D→H→U］と一括で入力するか、［D→E］（で）と入力したあと続けて［X→Y→U］または［L→Y→U］で小さい「ゅ」が出ます。
いかにもそれっぽい[D→Y→U]と入力すると、だ行「だ/ぢ/づ/で/ど」の仲間だと判定されて「ぢゅ」になります。あー面倒。

前項目で「ふ」の表示は[fu]と解説しましたが、キーボード入力では［F→U］でも［H→U］でも「ふ」と出ます。それはどっちでもいいんかい！（笑）
他には、
「ち」は［T→I］でも［C→H→I］でもどちらでもOK。
「し」は［S→I］でも［S→H→I］でもどちらでもOK。
「じ」は［J→I］でも［Z→I］でもどちらでもOK。
「ティ」は［T→H→I］で一括入力か、「テ」と「ィ」を別入力。
「スィ」は［S→H→I］でも［S→I］でも出なくて「ス」と「ィ」を別入力。
「ズィ」は［Z→H→I］でも［Z→I］でも出なくて「ズ」と「ィ」を別入力。
極めつけは［C→A］で「か」、［C→I］で「し」、［C→U］で「く」、［C→E］で「せ」、［C→O］で「こ」。「かしくせこ」？
キーボード入力謎すぎる。

今時の方はパソコンに慣れているので自然とローマ字入力できると思いますが、私が子供の頃はまだまだ家庭用パソコン自体珍しかったのでまずはキーボード入力の学習からでした。
逆に若い方だとスマホのフリック入力に慣れてしまって、パソコンキーボードのローマ字入力が分からない方もいるのだとか。
本来【調声編】の内容ではないですが、入力自体に手間取っては先に進めませんのでキーボード入力そのものから調べ直してください。
とりあえず拗音が出ない時は［X］キーか［L］キーを試してください。

長音

拗音関連だけでだいぶ長くなってしまいましたがまだ例文の半分も行ってないです。

「パーティー」と同じく、「会場」の「じょ」も同様に「じ」+「ょ」ではなく、拗音の「か/い/じょ/う」
……なんですが、拗音とは別に後半に不自然になるポイントがあります。
最後の「う」です。

実際に発声するときは大抵、「かいじょー」と「う」が消えて「じょ」が長音化しています。

歌詞入力するときは「じょ」を1つのノートとして音価自体を長くするか、
「じょ/ー」と「ー」（伸ばし棒または長音記号）を別の2つのノートとして当てはめる必要があります。「じょ/お」とわざと「お」を入力する手もあります。
ソフトやシンガーにもよると思いますが、それぞれ微妙に異なるニュアンスで発声します。

NEUTRINOでは、伸ばし棒は前の発音の母音を引き継いで再度発音するので、「じょ/ー」と「じょ/お」はほぼ似たような発音になります。
伸ばし棒のほうがピッチやダイナミクスの変化の差がごくわずかに少なく、なめらかなようです。
ただしどちらも母音[o]を2回発音して「じょ、お」と2音に分かれている感じで不自然になることもあります。

反対にただ音価を長くしただけでは、「じょー」の後半のダイナミクスが落ちたり、シンガーによってピッチ変化の癖が出たりしてちょっとだらしなく間延びして聴こえる場合もあります。
いずれも目的に合わせて使い分けます。

「お」をはっきりと発音させたり、メロディーに合わせて「じょ」と「お」のピッチを変えたい場合は「じょ/ー」や「じょ/お」、
ナチュラルに一つの発音として伸ばしつつピッチを変えたい場合は「じょ」の音価を長くしたのち調声ツール等でその発音途中からピッチやダイナミクスを調整します。
上手く調声出来れば「♪かいじょお！⤴」と「♪かいじょー！⤴」の違いを表現できます。
あるいは拗音を活かして、「う」を少し残した「♪かいじょウォ⤴」のような発音もできます。

「会場」にはさらに気づきにくいポイントがあります。
後の項目の弱化にも繋がってきます。
現実の「い」の発音は前後の影響で音価がやや短く、またピッチが下がりつつボリュームも素早く減衰する傾向があります。気持ち「か」が長音化している。
無理矢理文字で書くなら「かぁぃじょー」のような感じ。
現実でも素早く「パティかじょ」と発声すれば、舌っ足らずながら文脈で「会場」と認識できるくらいに「い」は小さくなっています。

前回までの〈音声〉回で見てきた、タイミング・ピッチ・ダイナミクスを理解していないと、この微妙な調声ができません。
堅苦しく不自然に「い」が強調された「かい！じょー」になることもあります。

NEUTRINOでは「かい」を一つのノートに当てはめることで「かぁぃじょー」とナチュラルに発声してくれる機能があります。
この機能を使っても良いですし、それはそれで不自然な場合やわずかに調節したい場合は、タイミング・ピッチ・ダイナミクスをいじっていくことになります。

歌詞の区切りの歌い終わり部分で「○○したーい」などと伸ばして歌わせたい場合、
8分音符＋付点4分音符の2つに分けて「し」＋「たい」と入力した場合と、
8分音符＋4分音符＋8分音符の3つに分けて「し」＋「た」＋「い」と入力した場合でニュアンスが変わります。
後者だと「したーい！」とハッキリ発音させたくない時は、「い」の後半のダイナミクスを緩やかに削る必要があります。
表現に合わせてお好きな方を選んでください。

促音「っ」

たった1例文ですがまだありますよ〜。

「向かって」は小さい「っ」があります。
促音と言います。
これまた「っ」と入力するのと休符にするのとではニュアンスが変わります。
「っ」や休符を入れ忘れたりすれば、「むかて」や「むかーて」のような発音になってしまいます。

NEUTRINOでは促音を入力した「む/か/っ/て」の場合、「っ」は前の母音を引き継いでから短く促音が入りますので「むかぁって」のような感じで「か」の母音[a]が入った発音になります。
休符の「む/か/（休符）/て」の場合は、「むかっ……て」のような感じ。「むか」をしっかり切ってから、タメて「て」を発音します。
どちらが良いかはこれもメロディーや表現によりますので、歌詞の流れの中での自然な発音なら前者、タメや癖を演出したい場合は後者を選ぶといった感じで活用してください。

私の場合、促音より休符を使うことが多いです。
休符の長さを8分音符にするか16分音符にするか、はたまた64分音符くらいまで細かく微調整するか、次の発音は何か、ピッチ変化はあるか、などで使い分けています。
調声ツール上でいじることもありますが、たとえば楽譜上で
「タタターンターン」の8分＋8分＋付点4分＋付点4分のリズムで
「♪むかぁ⤴……ってー」
みたいなメロディーに対応するには、前者の促音「っ」の機能では十分に表現できない場合もあります。
楽譜上で休符、拗音、長音、促音を駆使しつつ、調声ツール上でタイミング・ピッチ・ダイナミクスを微調整しています。

「む/か/っ/て」と「む/か/(休)/て」の違い。
「か」の母音「あ」のピッチ変化や、「て」のダイナミクス変化が変わる。
休符であればどのくらい切るかを先に楽譜上で調節しておきやすい。

母音の無声化（弱化、脱落）

そしてやっと例文の最後、
「います」の「す」はローマ字表示なら[su]ですが、実際の発声では母音の[u]がほぼ消えて子音の[s]だけの発音なっています。
母音の無声化や弱化や脱落と言います。

無声、つまり声帯が振動していない、あるいはごく弱くしか振動しておらず、有声音である母音が脱落しているということです。
歌詞の最後に「です」「ます」が来ると、そのままではかなりの違和感を感じます。「ですぅっ！」みたいな。

調声ツールで再現するには、タイミング調整で母音の音価を短くしたり、ダイナミクスをごく小さくするすることで対応できます。
ただし母音すべてを削ってしまうのではなく、子音のダイナミクスも抑えつつ急カーブで減衰するようなエンベロープを描いて母音のアタック部分に緩やかに繋ぐようにします。S字を描くような感じ。
子音→母音のダイナミクス変化をいきなりゼロにするとブツっと途切れて子音だけが相対的に強調され、余計不自然になります。トランジェントノイズだけが聴こえるようなものです。
子音部にアタックがあってディケイが短く早く減衰し、サスティンがほぼ消失して母音部はリリースだけ、のようなイメージで調声すると良いと思います。前回のエンベロープの考え方を活用してください。

英語など外国語っぽく発音させたい時に苦戦するのがこの無声化です。
英語は最後が子音で終わる単語が多く、[s]の他には[b][c][d][f][g][k][l][m][n][p][q][r][t][v][z]……というか子音ほとんど全部やん、っていくらい子音で終わります。
スペル上は母音が最後でも発音上は子音だったり。
「音楽ライブ」の「Live」（名詞）とかスペルは「e」で終わっているのに発音記号だと[láiv]で[v]で終わります。「ve」ですが「べ」でもないですし[vu]でもないですし、そもそも「ブ」でもなくて「ヴ」のほうが近い上に、[u]が最初から発音されていません。
ただあまり難しく考えず、調声上はあくまでそう聴こえるような音になればカタカナ英語でも良いと思います。

無声化や弱化、脱落は外国語で顕著かというとそういうわけではなくて、「です」「ます」以外の日本語にもそこそこあります。
「連続」とか。
最後の「く」はほぼ子音だけになっています。「く」の[u]をはっきり発音すると「くぅ⤴」といった感じのねちっこい発音になります。
歌詞の終わりで「♪れんぞくー」と伸ばすような場合はもちろん母音を残して構いません。
というか、か行の[k]音は、口内奥の上の軟らかい（やわらかい）部分＝軟口蓋に舌を当てて空気の流れを止めてから破裂させる無声軟口蓋破裂音ですので、多少は母音まで発音しないと空気の流れが止まったままで音になりません。

それからひとつの単語の発声終わりだけでなく発声途中でもあります。
言語の発展・変化の中でいつの間にか消えてしまったり、促音になったものもあります。
「学校」とか。
冷静にそのまま漢字を読んだら「がくこう」ですが、[k]の発音が連続するのが言いにくいので「がっこー」になっています。
「く」の母音[u]が無くなって「こ」の子音[k]と連続した結果[kk]の発音、要は促音「っ」になっています。
ローマ字入力するとき「っ」を［X(L)→T→U］だけではなく、子音の連続入力でも可能なのはそれを反映しているのかなと。
外国の方は発音に苦戦することもあるようです。「ガコー」みたいな発音になりやすい。

また補足ですが、外国の方が促音が苦手なのはそもそも促音自体を1つの音として捉えているかどうかの違いです。
日本語では促音は1モーラとして、リズムやメロディーに乗せるなら1音符（1休符）として無意識にカウントしています。「学校」なら「が/っ/こ/ー」の4モーラです。
英語はモーラではなく音節でカウントします。「がっこー」に似た発音の単語なら「gut」が近いでしょうか。クラシックギターの一種「ガットギター」（羊の腸などを繊維にしたガットを弦として張ったギター）の「ガット」です。
（現在ではナイロン弦などが主流ですが、こだわりのあるギタリストはやはり本物のガットを使用するそうです。）

「gut」を、日本語なら「が/っ/と」と3モーラでカウントするところですが、英語なら1音節です。1つの音符に乗せて歌います。

実は英語や多くの外国語には促音が存在しません。日本語上の定義だからです。近い発音でイタリア語の「staccato」（スタッカート）とかはあります。
促音っぽく聴こえるのは次の発音のための舌などの動き、いわば子音の溜めがあり、その子音がハッキリ聴き取れるまでに一瞬の間があるからです。
日本人はその一瞬の間を、促音「っ」として認識してます。

【調声編】初回で「get up」が「げっとあっぷ」ではなく「げらっp」のほうが近い、と紹介しましたが、「get」の部分は1音節にしかなりません。「gut」と同様です。
「get」「gut」のうしろの[t]の発音が、舌先を上の歯茎（はぐき/しけい）の裏に当てて空気の流れを止めたあと破裂させる無声歯茎破裂音なので、その止めの間を日本人は「げ/っと」「が/っと」と促音のように認識しています。
（た行の「た/ち/つ/て/と」が[ta / chi / tsu / te / to]と一律[t]ではないのは、「ち」は無声歯茎硬口蓋破擦音、「つ」は無声歯茎破擦音に分類され、[t]とは別の発音だからです。
硬口蓋は口内前方の上部、歯茎に繋がる硬い部分のこと。
破裂音と破擦音（はさつおん）の違いは、破裂するときに舌が擦れて（こすれて）音を出しているか、という違いです。
実際に舌や唇を動かしてみると分類名通りの動きで楽しいですよ。）

ちなみに「げらっp」の「ら」の部分は[t]が変化した弾音（有声音化）です。次の発音が「up」で母音[a]で始まるので有声音である母音に引っ張られて[t]→[d]に変化、または「ら」っぽい有声音に変化しています。
促音「っ」に聴こえるのは「up」の[p]の発音のために唇を閉じる閉鎖が起こっているから。[p]は無声両唇破裂音でしたね。ぱ行の発音。破裂させるには一旦空気の流れを止めないといけません。それが促音「っ」に聴こえる。
そして「p」の部分は英語ではそもそも母音がありません。無声音です。母音[u]が入った日本語の「ぷ」ではなく、子音単体の[p]です。
英語では「get up」をたとえゆっくり発声しても「げーっとあーっぷぅ」にはなりません。「げぇるぁーp」みたいな感じです。

話を戻します。
母音の無声化で気づきにくい例としては「明日（あした）」があります。
「あ/し/た」は[a/shi/ta]と表記されますが、実際の発音は[a/sh/ta]といった感じで[i]がかなり弱化しています。
おおよそ現代標準語である関東・東京周辺の発音でその傾向が強いようです。

これまた余談ですが（すぐ脱線する……）、
日本語の方言の幅は英語なんかの訛り（なまり）よりよっぽど幅広いそうです。
イギリス英語もアメリカ英語も一応英語圏の人であればある程度通じるそうですが、日本だと沖縄弁や津軽弁が別の地方や若い世代ではまったく理解できないことがあるように、外国語話者からは沖縄語・津軽語と言えるくらい別の言語と感じるらしいです。
日本人でもそう思いますね。沖縄弁は琉球語に分類され別ルーツという面もあります。

世界史の授業なんかで習ったと思いますが、欧米の言語はインドヨーロッパ語族と呼ばれ、その中にゲルマン語派（英語、ドイツ語など）やロマンス語派（イタリア語、フランス語など）といくつかの系統はあれど、同じような語源や文法や発音の規則から派生しているので、似た単語や発音があったり、単語の借用や逆輸入があったりが歴史上頻繁に起こってきたので学習がしやすいとのこと。

対して日本語はルーツそのものが謎。
FSI（アメリカ外交官養成局）の言語習得難易度ランキングで、日本語は世界で唯一「カテゴリー5+」に分類されています。外交官になるための言語習得に一番時間がかかるそうです。

ただし、あくまで欧米系の一部の人が学習する際に苦戦するというだけで、語順などの文法や類似の単語・発音がある言語圏の方からすればそうでもないようです。歴史的にも繋がりの強い東アジア・東南アジア圏の方は日本語習得しやすい。
中国語の文法は英語と同じ「SVO」（主語→動詞→目的語）の順番で、日本語の「SOV」（主語→目的語→動詞）とは逆ですが、同じ漢字文化圏なので同じ漢字や似た発音はいくらでもある。「文化」「社会」「時間」「電気」とかの漢字は日本からの逆輸入です。
語順も世界的に見れば日本と同じ「SOV」の言語のほうが実は多いです。話者数で人口の多い英語や中国語の「SVO」語順が多いというだけ。
日本語は世界一難しい言語でそれを使う日本人は特別で優れている！みたいな発想はやめといた方がいいです。ただの勘違い。

それから日本国内においても、現在は関東・東京を中心とした発音が標準語とされていますが、言語学的には東京弁・東京方言で、関東・東京周辺の一部地域の訛りという扱いです。
昔々は上方（かみがた）、要は関西が日本の中心で関東はド田舎でした。

言語に貴賤はありません。
「あし！た」[a/shi/ta]と「し」をはっきり発音するのが悪いとか古いとかいうことはないです。
メロディーに乗せるならなおさら、偏見は取っ払っておかないと自らの範囲を狭めます。

NEUTRINOの母音無声化機能「’」アポストロフィ

さてさて、
母音の無声化の調声法として先に紹介したダイナミクスエンベロープによる方法もありますが、NEUTRINOには特別に便利な機能がありますので紹介しておきます。

NEUTRINOでは短い発音であれば1つのノートに「です ’ 」「ます ’ 」（アポストロフィ）」と当てはめることで母音の無声化に対応ができます。
全角の「’」です。［Shift］（シフトキー）と［7］同時押しで出ます。

「あした」なら「あし ’」で1ノート＋「た」で1ノートとそれぞれ当てはめます。
「し ’」だけ単音では反応しません。

公式の使用例では「スカイ」（英語のsky）もあります。
「す ’ か」＋「い」と「すか」の途中に挟むことで、「す」の母音[u]をハッキリ長く発音する[su/ka/i]と違って、よりナチュラルな[ska/i]と発音してくれます。
「す、か、い」ではなく「スカーイ」といった感じ。

さらに「会場」の「かい」との合わせ技で、「すかい」全部を1ノートに収め、「す ’ かい」と入力すると[skai]とまるで英語のように1音節で発音してくれます。「スカァィ」といった感じ。
本来の発音記号[skάɪ]で表される英語の「sky」そのものにかなり近いです。
すごい！
「Fly Sky High !」（空高く飛べ！）みたいな英語歌詞を入れてみたいなら是非やってみてください。私もまだまだ研究不足！

「す/か/い」「す ’ か/い」「す ’ かい」の違い。
ピッチもダイナミクスもなめらかに1音節として繋がっていく。

ここからはオマケです。
もしかしたら面白いかもと一応他パターンも試してみました。
まず、「会場」の「かい」を1ノートに当てはめるパターンで「かい ’」とアポストロフィを入力してみました。
が、母音だけの「い」の発音がまるごとなくなったりはしませんでした。「かー」ではなく「かぁぃ」のままです。変化なし。
あくまで子音と母音セットの発音の場合に子音だけを取り出す機能です。あ行には効果なし。
というか母音だけの発音から母音を取り除くという意味不明な行為。

それから、「ます ’」をそのまま1ノートではなく、「ま」「す ’」の2ノートに分けて入力した後、タイで音符を繋いで疑似的に1ノートにしてみたところ……、
こちらも発音的には変化なし。ふつうに「す」の母音の無声化でした。
ただし調整ツールのノート上の歌詞表示から「す ’」が消えて「ま」だけになってしまいました。一見バグっぽいし歌詞の表示が無くて混乱するだけなのでやめときましょう。ノートはできるだけ1個にしてください。
あとアポストロフィ無しの「ます」を間違って1ノートに入れてしまうと「かい」と違って発音がぶっ壊れます。
[m/a/s/u]の[a]の位置に[u]が無理矢理入ろうとして[a/s]が押しつぶされてしまい、[m]+[asu]みたいな表示で「む」と言おうとして失敗したみたいなモゴモゴした発声になります。やめときましょう。

最後、「ます ’」の次のノートに長音「ー」、促音「っ」を入れてみると、ニュアンスは違いましたがどちらも「す」の母音[u]が復活？して引き継がれました。長音、促音が優先されて特に面白い効果は無いみたい。
昔ニコニコ動画から一躍インタネットミームと化した、某「アッー！」みたいな発音は存在しません。微レ存？

以上、NEUTRINOユーザーはアポストロフィ機能を上手く使って調声に活かしてみてください。

と、ここまで紹介しておきながら私の場合、促音「っ」と同じくこの機能もあまり使っていません。
メロディーに合わせてタイミングやダイナミクスを自由にいじったほうが固定されているよりやりやすくて。どんな機能も便利がゆえの弊害もあります。

たとえば
「タタ」の8分＋8分のリズムで「です」と短く歌わせたいとき、
「タン」の4分音符1つのリズムで「です ’ 」とアポストロフィを使うと
「♪でーす」と「で」が伸びてしまいます。
付点8分＋16分音符のような感じに勝手に処理される。
どのタイミングで母音脱落の「す」を歌わせるかを調整するため4分音符以外のノートの長さを試していくわけですが……それなら8分音符2つで歌わせてダイナミクス調整したほうがリズム通りで手っ取り早いです。

4分音符1つ分で「です ’ 」アポストロフィを使った場合。
「す」のスタートが遅れて「でーす」になってしまう。

「♪あしたー」なら「あし ’」＋「たー」、
「♪あーした」だと「あー」＋「し ’ た」
と、どのノートを1つにまとめるか、そのノートの長さはどれくらいにするか、どこにアポストロフィを入れるか……と、これも結局試行錯誤することになります。なら別ノートで合成して調声ツールで調整したほうが視覚的にもわかりやすい。
そして「です」と同じく自動で合成される発音タイミングやニュアンスが思っていたものとは違う場合もあります。
「あし ’ / たー」なら「タ/タ/タン」のリズム
「あー/ し ’ た」なら「タン/タ/タ」のリズム
かと思いきや微妙に違って、ゆっくめのテンポで合成すると、
上の場合「し」の[i]が削られ過ぎて「あしィ゛～た」とちょっと苦しそうに歌います。
下の場合、「♪あーしッたァン」みたいな意図しないシャッフル（跳ねた感じ）が入ります
であれば、こちらもアポストロフィ無しでリズム通りに合成したあと、必要であれば「し」の母音[i]のダイナミクスを削ったり発音タイミングを微調整したほうが変な癖が出ずに調声しやすいです。

また以前の記事中Twitterで紹介した自作曲『さよならアドレセンス』のように、歌い終わりで「♪セーーー（ンスゥー……）」と長く消え入るようにしたければ、アポストロフィ機能ではやはり対処できません。
「んす ’ 」だと自動で「ス」を短く切ってしまい「♪ンース」と「ン」が伸びた上に「ス」の子音[s]だけを伸ばすといったことはできません。
この場合、楽譜上で伸ばしたいところまでの音符の長さで「ス」を入力して合成したあと、
調声ツールのタイミング調整で「ス」の子音[s]を母音[u]が消えるくらいまで伸ばします。そして母音[u]は短くダイナミクスも小さく早く減衰するようにダイナミクス調整します。
イメージとしては子音[s]自体をサスティンとしてエンベロープを描く感じ。

さらには手前の「ン」も「セ」の母音[e]から自然と[N]に繋がるようなダイナミクス等の調声が必要です。でないと「セ―――んすっ！」と謎の気合を入れたような発音になる。
今回の記事の最後では、例文に無いこの「ん」の発音について触れます。「アドレセンス」の「ン」にも実は秘密があります。
もう少々お付き合いください。

イントネーションとアクセント

メロディーだとあまり意識はしませんが、一応イントネーションとアクセントについても少し触れておきます。話し言葉の中で音の高低が変化する、要はピッチ変化の傾向です。
イントネーションはある程度の長さの文中でのピッチ変化、アクセントは1単語中のピッチ変化です。
方言によってかなり違いがあるのはご存知かと思います。一応標準語に則って解説します。

ふつうの話し言葉だと「パー⤵ティー⤵」や「会→場⤴」のような矢印方向へのイントネーション、ピッチ変化があります。
ところがくっつけると「パー→ティー→会⤵場⤵」といった全然違うイントネーションになります。
イントネーションが無いと「パーティーカイジョー→」のようにロボットがしゃべったような単調な発声になります。
昔の記事の結びネタで挙げた「ダールマサンガー☆コーロンダー」みたいな。

歌モノ曲の中では話し言葉のイントネーション・アクセントよりは、当然メロディーのピッチのほうが優先されますが、「箸（は↑し↓）」と「橋（は↓し↑）」のように違う意味に取られる可能性もあります。
関西弁だと標準語と逆向きのイントネーションだったり、アクセント位置が違ったりする単語がよくあります。
先の「あした」の「し」の母音無声化が、関東で起こりやすく関西で起きにくいのはこのイントネーションやアクセントの違いがあるからです。

もし、私がたまに入れてるセリフっぽい調声なんかをやってみるなら、かなり試行錯誤しないとナチュラルにはなりません。調声ツールの全機能を注ぎ込んでやっとそれっぽいところまで。
しかも何がナチュラルかは生まれ育った地域の影響なども受けるので正解はないです。

イントネーションに関してはメロディー上の重要度は低いんで「へぇ〜」くらいの認識で良いです。

…………
ということで、
「私はパーティー会場へ向かっています」の一文だけでもこれくらいは入力のコツあります。
さらに、もしこの文を歌詞にするとなると、「パーティー」が「パティ」になったり「会場」が「解除」にならないメロディー上の工夫も必要です。

もう
「わたしハぱてい解除ウヘむかーていまス！」
なんて発音しませんね？
それでは今回最後の項目に移ります。

撥音「ん」

「私はパーティー会場へ向かっています」の例文中にはありませんでしたが、「ん」の発音も実は日本語では独特です。
「ん」は撥音（はつおん）と言います。

ネットで話題になっていた例文が
「とんかつ専門店よ」（とんかつせんもんてんよ）
でした。「ん」が4つ入っています。
ローマ字表記だと
[to/N/ka/tsu/se/N/mo/N/te/N/yo]
とぜんぶ[N]で、
書き文字でも、キーボード入力でも、調声ツール上の表記でも「ん」[Ｎ]になりますが、発音は実は別ものです。

発音記号では順に
[ŋ]軟口蓋鼻音
[m]両唇鼻音
[n]歯茎鼻音
[N]口蓋垂鼻音
となります。
口だけでなく鼻にも空気の一部を流して共鳴させる鼻音に分類されますが、それぞれ空気の流れを止める場所や器官が違います。もう何となく分類名で分かるかと。
その個人の発音の癖などもありますので、分類名とピッタリではないこともありますが、ゆっくり発声してみると同じ「ん」なのに唇の形や舌の当たる位置が違うことには気づくと思います。

分類の仕方や考え方によって、日本語の「ん」は3～6通りあると言われています。
これは前後の発音による影響が大きく、日本人は当たり前に使い分けていますが外国の方はこれまた苦戦するそうです。
日本に来て日の浅い外国人留学生のコンビニ店員さんなんかが「100円」と言うと「ヒャクエ（ンヌ……）」のような感じで「ん」とは違う発音が入るのはそのせいです。
日本語の語尾に来る「ん」は4つ目の[N]口蓋垂鼻音であることが多く、他との区別が難しいみたい。
音としては「ん」[N]としか聞こえませんので調声ではそこまで気にすることはありませんが、いずれ紹介するゴーストノート調声に少し関わってきます。
先に紹介しかけた『さよならアドレセンス』の「ン」です。

実は「アドレセンス」の歌詞を入力するとき、そのまま「アドレセンス」とノートに当てはめたのではなく、実際は「アドレセヌス」と「ぬ」を入力してから音声合成しています。
口に出して発音してみると分かりますが、「アドレセンス」と言うときの「ン」は唇はくっ付いていません。つまり両唇音ではないです。
そして舌は口内で浮いて口と鼻の両方から息を抜いているか、上の前歯裏の歯茎あたりに軽く当てて鼻から息を抜いています。おそらく個人の癖の違いがあります。
この「ン」は鼻母音や歯茎鼻音に分類されます。
少なくとも唇をくっ付けた両唇鼻音の「ン」とは違うな、というのは感じられるかと思います。

唇をくっ付けた「ン」は「む」と発音する直前の口の形と似ています。ま行[m]の発音っぽいです。発音記号も[m]とそれらしくなっています。
対して、唇をくっ付けていない「ン」は「ぬ」と発音する直前の口の形と似ています。な行[n]の発音っぽい。
試しに「アドレセんす」ではなく「アドレセぬす」と発声してみて、その際「ぬす」のそれぞれの母音[u]を弱く発音してみると、「んす」よりナチュラルに語尾が消失していく「アドレセns……」に聴こえるのではないかと思います。

AIシンガーはナチュラルな発音を再現するのは優秀ですが、やはり機械は機械ですので「んす」と入力して歌わせると本当に「ん！す！」としっかり発音してくれちゃいます。実際の発音記号が[m]だろうが[n]だろうが、ダイナミクスの立ち上がりが強く速い、いわばアタックが前方にある[N]で再現します。
「ぬす」だと「ぬ」を発音する際のダイナミクス変化に準拠しますのでアタックの立ち上がりが緩くやや弱い。AIシンガーの優秀さを逆利用します。調声ツール上でも[N]ではなくちゃんと[n]で表示されます。
あとは実際に聴きながら適度に母音[u]のタイミングとダイナミクスを削ってやればよい。「ス」も調声してちゃんと消え入る「セ―――ンスゥー……」を再現できます。

[m]でも同じように調声可能です。
「ん」のあとにま行[m]、ば行[b]、ぱ行[p]が来る発音の際の「ん」は、「む」で合成後にタイミングやダイナミクス調整すると上手くいきやすいです。
「まんま」（幼児語のごはんの意）の「ん」とかそうですね。

また余談ですが、この「ま行」「ば行」「ぱ行」の3つの発音は唇を一旦閉じてから開いて発音する両唇音に分類されます。
閉じて開くだけのシンプルな動作で舌などの複雑な動きを必要としませんので、赤ちゃんが最初に習得しやすい発音です。
だから「ママ」「ババ」「パパ」の習得のほうが早く、舌や歯を使った「ジジ」の習得は遅くなります。
世界各国の言語を見ても、
「ママ」（欧米系言語や中国語でお母さん、英語は「マム」とも）、
「マンマ」（イタリア語でお母さん、日本語でごはん、英語でおっぱい）、
「アンマ」（沖縄語でお母さん）、
「ババ」（トルコ語や中国語でお父さん、日本語でおばあさん、またはうんち）
「パパ」（欧米系言語でお父さん）
など、[m][b][p]は赤ちゃんが最初期に覚える単語に多い。
一人ではまだ生きていけない小さな赤ちゃんが生き延びるために最初に覚えなければならない言葉は「母」「食事」「排泄」。
そのあとに「父」「祖母」。お爺さんの立場……（笑）
小さな子どもが大好きな「アンパンマン」もそうですね。発音しやすいから覚えやすく親しみやすい。やなせたかし先生のネーミングセンス！

余談おわり。
次回紹介予定の裏技「ゴーストノート調声」に自力で気づいたのは、この「ん」の発音のおかげです。
なぜか、特にめろうさんが、あ行やな行で始まる歌詞の時にダイナミクスが弱くなりがちな現象の原因を探っているときに気づいたものです。
今考えるとかなり最初期の6曲目『I/O』の時。
歌詞は1番Aメロが「♪にじんで」のな行、サビが「♪アイオー」のあ行で始まります。
どちらも歌い出しが何ともパワーが足りなかった。バラードですのでその時はそれでも良かったのですが、そこで気づいたのが……

というのが次回、ゴーストノート調声の話題です。

結び＆次回予告

またもやとてつもなく長い記事になってしまった……。
長々とお付き合いいただきありがとうございます。

こうやって自分の調声法のコツを改めて記事にまとめてみると、思っている以上に言語そのものについて深く考えながらやっていたんだな、と再認識しています。
同時に、自分自身「なんとなーく」でやっていた部分も多いな、と。まだまだ勉強不足ですね。

いかにNEUTRINOのようなAIシンガーが自動でナチュラルに人間っぽく歌ってくれると言っても、やはり機械は機械、データはデータです。
データのいじり方、その音が出る仕組みを知らないと調声は上手にならないと思います。楽器音の打ち込みと同じです。
調声が上手くいかないときは言葉の原点に戻って、それこそ赤ちゃんが言葉を覚えていくくらいのつもりで、まっさらなところから始めてみると良いのではないかと思います。

さて、次回は予告通り「ゴーストノート調声」について解説していきます。
聴こえるか聴こえないかのわずかな音が、よりリアルなドラムスやギターの音になっていくように、発音もわずかな音の違いがリアルさを生む。
もちろんタイミング・ピッチ・ダイナミクスを理解して的確にノートを打ち込んだ上でです。表面的なテクニックでは「ゴーストノート」は活かせませんので。

それではまた次回もお楽しみに。
Thank you for reading!

この記事が気に入ったらサポートをしてみませんか？