見出し画像

#2 VX-βでのノートと歌詞の入力

プログラムの本体(VX-β)は、プラグイン形式のソフトウェア音源のみです。先行する歌声合成ソフトウェアとは違い、ノートと歌詞を入力をするエディタはありません。
なので、ノートと歌詞のデータ(シーケンス・データ)は、他のソフトウェアで制作する必要があります。

VX-βがシーケンス・ファイルから読み込むのは、BPM(※)・ノート(各音符の高さ/長さ)・歌詞のみです。各歌声合成エンジンに固有の各種パラメータや演奏データ、発音記号などは読み込まれません。

なお、VX-βに対してノート・オンを送る(鍵盤を弾く)とそのピッチのサイン波が鳴るのみで、歌声合成はしません。
また、VX-βからシーケンス・ファイルなどを出力させることもできません。

(※)VX-βにシーケンスファイルを読み込んで使う場合は、DAW側でBPMを変更しても追従しません。読み込まれたシーケンス・ファイルのBPMのまま歌います。


1. ノートと歌詞の入力方法

ノートと歌詞の入力は、いくつかの方法で行えます。
発音記号を直接入力したいとか、ノート分割(※)をしたいとか、込み入ったことをやりたい場合は、CubaseかVOCALOID5-6が必須となりそうな気がします。

(※)ノート分割とは、主にVOCALOID楽曲制作者の間で広がった歌声の調声法の1つで、記譜の上では1つの音符となるノートを複数のノートに分割して、その各ノート対して異なる音高を割り当てる技法のこと。単調になりがちなVOCALOIDの歌声合成に細かなピッチ変化を与えることで、さまざまなニュアンスを持たせることができる。母音分割とも。VX-βにおいてのノート分割の考え方については、別記事で考察する予定。

1) Cubaseで入力する

Steinberg社のDAWであるCubaseでは、別途ソフトウェアを用意することなく、Cubaseのピアノロール上でノートと歌詞の入力を行うことができます。
私はCubase使いではないので試せてはいないのですが、VOCALOID4時代の「VOCALOID for Cubase(通称「ボカキュー」)」に近い操作感になっているのではないでしょうか。

2) VOCALOID5以降で入力する

VOCALOID5以降のファイル形式である「.vpr」を読み込むことができます。
それ以前のVOCALOIDのファイル形式である「.vsqx」や「.vsq」は読み込めません。

3) その他の歌声合成ソフトウェアで入力する

下記、歌声合成ソフトウェアなどのシーケンス・ファイルが読み込めるようです。公式では控えめに拡張子のみ表記されていますが、おそらく下記ソフトウェアのファイル形式です。

「.ccs」: CeVIOプロジェクトによる CeVIO
「.svp」: Dreamtonic社による Synthesizer V
「.ust」: 飴屋/菖蒲氏によるフリーウェア UTAU
「.musicxml」「.mxl」: MusicXMLという楽譜作成ソフトウェアにおけるスタンダードMIDIファイル(.mid)のような立ち位置のファイル形式。この形式が扱えるフリーウェアには「Muse Score」などがある。

4) 対応するシーケンス・ファイルのエディタがない場合

Cubaseユーザーでもなく、V5以降のエディタもなく、CeVioやSynthesizer Vも持ってない人が、フリーウェアで演奏データを作りたいとなると、UTAUかMusicXMLということになりそうです。

UtaFormatix: 各種の歌声合成ファイルの変換

下記サイトで各種の歌声合成ファイル変換できるようです。

サポートされているファイル形式:
VSQX、VPR、VSQ、MID、UST(複数可)、USTX、CCS、MUSICXML、XML、SVP、S5P、DV、PPSF(NT)、UFDATA

V4以前のエディタしかない場合はここで変換できるのかも。
「.VSQ」はV2のファイル形式。「VSQX」はV3-4のファイル形式。

2. ノート入力の基本

VX-βでのノート入力の注意点について述べます。

1) 各ノートを間隔なしに繋げる

休符となる箇所を除いては、各ノートを間隔なしに繋げるようにします。

ノートとノートとの間に隙間があると、AIが「休符=フレーズの切れ目」と自動的に判断して、過度にフレーズを区切って歌おうとしたり、頻繁にブレスをしたりしてしまうそうです。
開発サイドとしては、各ノートを間隔なしに繋げてあるシーケンス・データでうまく歌えるように調整しているので、ノートの繋がっていないシーケンス・データはなるべく避けてほしいとのことでした。

特にリアルタイム入力したデータはノートの長さがまちまちとなるので、DAW上か、各歌声合成エディタ上で、各ノートの間隔を埋めて繋げる調整をしたほうがよいです。

ノートを間隔なしに繋げる

VX-βの合成する歌声を聴くに、歌い始めのピッチはやや不安定になりがちな傾向があります。
しかし、歌い始めのピッチが不安定なのは人間歌唱でも同じことなので、ある意味リアルでもあるわけです。

各ノート間に隙間があると、VX-βはフレーズを区切ろうとするので、その都度、フレーズの歌い始めの不安定なピッチをとろうとします。
つまり、常にフレーズが区切られると、常にピッチが不安定になるということです。

2) フレーズを区切らずに間(ま)を作る

とはいえ、フレーズは区切りたくないが、ほんの少しだけ間(ま)を開けたいときもあります。
たとえば、文節(※)の区切れとなる箇所などがそうです。

そのようなときは、ノートの存在しない箇所を作らずに、歌詞を「っ」(小さい「つ」)とするノートを配置するとよいかもしれません。
別記事で詳しく述べる予定の「SIL」または「sil」(いずれも強制的に無音を挿入する特殊な発音記号)を入力したノートを配置してもよさそうです。

(※)文節とは、文を細分化するときに、意味として汲み取れる最小単位のもの。たとえば、「色は匂えど散りぬるを」を文節にわけると「色は」「匂えど」「散りぬるを」の3つになる。

3) ブレスのためにノートの存在しない隙間を作る

VX-βは、ノートの存在しない箇所には休符があるとみなし、その箇所でフレーズを区切る傾向があります。
ブレスは自動的に入りますが、ブレスの入るタイミングは休符だとみなされた箇所のみです。
ノートが隙間なく続いている間は、息切れすることなく、ブレスなしで歌い続けてしまいます。

VX-βを人間歌唱のように歌わせたいのであれば、ブレスをさせたい箇所にはノートの存在しない隙間を作る必要があります。
ブレスの頻度は、テンポにもよりますが、2小節に1回程度を目安とするのが一般的です。

ブレスのために隙間(8分休符の長さ)を開けている

4) フレーズの切れめ

フレーズを繋げて歌うか、区切って歌うかは、ノートの存在しない隙間(休符)の長さによるようです。
おそらくは、音楽的な拍の長さ(16分休符より長いなど)ではなく、絶対的な時間の長さ(一定のミリ秒よりも長い)に依存しています。

下図はVOCALOID5エディタでの画面ですが、ピッチカーブが切れずに表示される箇所では、VX-βでもフレーズを繋げて歌う傾向があります。
ピッチカーブが切れて表示される箇所では、VX-βでもフレーズを区切って歌う傾向があります。
わりと高い確度でそうなるので、V5-6エディタを使用されている方は参考にしてみてください。

VOCALOID5エディタでのピッチカープ(オレンジ色の線)

3. 歌詞入力の基本

VOCALOIDと同じ仕様なので、VOCALOIDを使ったことのある方であれば、「あー、あの話ね…」となるかと思います。

1) 対応言語

すべてのボイスバンクにおいて、日本語と英語に対応しています。
日本語と英語の歌詞を混在させることもできます。

2) 1ノート・1音節で対応させる

ここでいう「ノート」とは、ノート(音符)データのことです。
音節(シラブル)とは、音声言語を区切る発音上の最小単位のことです。
日本語の音節構造は単純で、たいていの場合、かな表記1文字が1音節となります。

日本語 → にほんご → に・ほ・ん・ご(4音節) 

VX-βでは1つのノートに対して、1つの音節しか割り当てることができません。
実際の歌唱楽曲では、1つの音符に対して2音節を割り当てることもよくありますし、実際、そのような記譜も珍しくないです。
ですが、VX-βではそのようなシーケンス・ファイルや楽譜(MusicXML)を作成してしまうと、歌詞が正しく読み込まれないと思われます。

CeVIOやSynthesizer Vでは、下記のような歌詞(二重母音など)を1つのノートに入力できますが、VX-βでは対応していません。
CeVIOやSynthesizer Vのファイルを読み込ませるときは、事前にノートを2つに分割し、分割したノートに1つずつ歌詞を入力しておく必要があるような気がします(どっちも持っていないので確認できず)。

二重母音(1音節+母音)
例) あい ()  たい (〜したい

あい

促音(1音節+「っ」)
例) ずっ (ずっと)  きっ (きっと)

ずっと

撥音(1音節+「ん」)
例) かん (じる)  たん (調)

長音(伸ばす音)
例) おお (きい) ちょう (単調

たんちょう
「ちょう」の入力は2パターンあり「ちょ-」か「ちょお」と入力する(※)

(※)メリスマ入力と母音入力との歌声の違い
長母音の歌詞入力は、「ちょ-」のように「-」を入力する方法(次項「メリスマ」を参照)と、「ちょお」のように歌詞として母音「お」を入力する方法があります。
VX-βもまたVOCALOIDと同様に、合成される歌声に微妙な違いがあります。
「ちょ-」と入力したときは、1つの音節として繋げる傾向があり、「ちょー」のように歌います。「ちょお」と入力したときは、音節を区切ろうとする傾向があり、「ちょ・お」のように歌います。
シンセサイザーにおけるADSRエンベロープの概念でたとえるならば、「-」を入力するとADSRをリセットしないで発音し(Legatoモード)、母音を入力するとADSRをリセットして発音するというイメージです。

3) メリスマ

メリスマとは、1つの音節を複数の音符にまたがって長く伸ばす歌唱法のことです。
メリスマとなる各音符には「-(半角ハイフン)」を入力します。
「-」の音符が続く間は、ずっとその音節の母音が引き伸ばされます。

(※)V5-6エディタで日本語を入力する場合は「ー(全角カナの伸ばす棒)」でも代用できます。

赤く囲った部分がメリスマ
「zi」の母音「i」を伸ばしてメリスマの音符の高さを歌い、
メリスマの終わる音符の末尾で子音「ng」を発音する。

4. 日本語歌詞の入力

これもVOCALOIDとほぼ同じ仕様です。
他にも注意点はあるかもしれませんが、要するに、ひらがな単体での発音で歌うということです。

1) 「〜は」 主語に続く助詞「は」

×こんにち(今日は) ◯こんにち 

2) 「〜へ」 方角などを示す助詞「へ」

×はなからはな(花から花へ) ◯はなからはな

3) 長母音化する「えい」「おう」

下記のような語句では、「えい」「おう」とは発音せず、長母音化して「えー」「おー」と発音することが多いです。

母音「え」で終わる語(え、け、せ…など)に「い」が続く語
けいたい(携帯) → けえたい/け-たい

母音「お」で終わる語(お、こ、そ…など)に「う」が続く語
ようこそ → よおこそ/よ-こそ

ただし、長母音化しないほうが一般的な語(※)もありますし、長母音化することが一般的な語でも、長母音化せずに話したり、歌ったりする人もいます。
なので、好みに応じて使い分けるという形になると思われます。

(※)たとえば、「星座」は「せえざ」とは発音せず、「せいざ」と発音するほうが一般的だと思われます。

5. 英語歌詞の入力

これも、基本的にVOCALOIDと同じ仕様だと思われますが、私自身が英語を得意としないのであまり試せていません。

1) 英語は単語ごとに音節数が異なる

英語の場合は、音節の概念がちょっと厄介で、1単語1音節というわけではありません。

たとえば、『Amazing Grace』の冒頭の歌詞は、次のような音節に区切られます。(「Amazing」だけ3音節に区切られる)
Amazing grace how sweet the sound
A-ma-zing・grace・how・sweet・the・ sound 
短  長    短    長     短    長     短   長 (※)

(※)「短」「長」は各音節の長さを示しています。英語をはじめとする印欧語には短く発音される音節と、長く発音される音節があります。英語の定型詩では、その「短」「長」を組み合わせてリズムを形成します。

「amazing」だけ「a-」「ma-」「zing」の3音節に区切られる

各種歌声合成エディタは、英単語の音節/発音記号辞書を内部に持っており、英単語を入力するとその辞書に従って、自動的に音節を区切り、適切な発音号を割り当てています。
たとえば、V5-6エディタは、「Amazing」という単語をノートに入力すると、入力されたノートには「A- 」が割り当てられ、その次のノートに「ma-」、その次のノートに「zing」という具合に、自動的に音節が割り当てられます。

2) 多音節の単語をその音節よりも少ない音符で歌う場合

「Amazing」は辞書的には3音節だとされています。
なので、「Amazing」の3音節に呼応する音符は少なくとも3つは必要です(メリスマを伴うときはさらに多い音符の数になる)。

だというのに、英詞歌曲の記譜文化はちょっといい加減になっていて、「Ama - zing」と区切って、2つの音符で済ましてしまう譜例もあります。

そのときの「A」は非常に短く、「ma」の前打音(装飾音符の1種で、音符の本体の直前に短い音符を加える音符)のように歌います。
なので、「ma」の直前に音価の短いノートを1つ用意し、そのノートに「amazing」と入力するしかないかと思われます。

拍より前に16分音符を配置して「A-」の音韻を当てる

3) 音節/発音記号辞書ない単語

よく使われる英単語は内部の辞書で変換できると思われますが、古語とかスラングとなってくるとうまく変換できないときがあります。
そういう場合は、発音記号を直接入力する感じになると思われます(地味にハードルが高い)。

この記事が気に入ったらサポートをしてみませんか?