【UTAU式人力】なめらかな人力vocaloidの作り方～音素狩り編～

山本

2023年9月23日 01:01

こんにちは。山本ピノ子と申します。
普段はXやニコニコ動画にUTAU式人力動画を投稿しております。

この記事では、なめらかなUTAU式人力vocaloidの作り方を実際に作りながら解説していきます。

PCの基本的な扱いやUTAU式人力にある程度慣れた中級者向けの解説なので、各アプリやソフトの導入、詳細な操作方法は省略しております。
分からない箇所や語句は自分で調べてください。すみません……

また、解説と言いつつ私の作り方を備忘録的に書き連ねているだけです。
あくまでも作り方の一例なので、箇所によって自分に合った方法が他にあればその方法でも勿論構いません。

少しでも参考になれば幸いです。

（まだまだ試行錯誤中なので、さらに良い方法が見つかれば更新する可能性もあります。ご了承ください。）

はじめに

今回の解説で作成した作品がこちらです。

全工程を解説しようと思いましたが全部一気に載せるとあまりにも長くて分かりづらくなりそうだったので、工程を大まかに分けて解説することにしました。なので、

音素狩り編
原音設定編
調声編

の3つに分けて解説していきます。今回は音素狩り編です。

①音声の録音

人力を始めるには、まずキャラクターの音声を用意する必要があります。
ゲームやCDなどからキャラクター音声を録音して、mp3やwavファイルとして保存します。

歌声ベースとセリフベース

録音する音声には「歌声」と「セリフ」の2種があり、それぞれ利点や欠点があります。

ここでは区別するために「歌声ベース」「セリフベース」と呼んでいますが、歌声ベースは「歌音素」とも呼ばれています。

それぞれの特徴は以下の通りです。

【歌声ベース】
・本人の歌唱に似やすい
・原音設定が短時間で終わる
×曲によってはエフェクトの影響で使える音が少ない

【セリフベース】
・歌を出していないキャラを歌わせることができる
・歌声ベースよりも音を集めやすい
×音が多くなるので原音設定に時間が掛かりやすい

＊実例
私が所持している同キャラクターの歌声とセリフのファイル比較
【歌声】（2曲）
・wavファイル数：63
・総時間：3分 1秒
・パラメータ数：393

【セリフ】
・wavファイル数：164
・総時間：3分59秒
・パラメータ数：1648

総時間は1分しか変わらないのにパラメータ数がエグいことになっています（1648もの音を使い分けられるかい？あたしゃ無理だね）

歌声は使える音が少なめになりがちですが、綺麗な音が取りやすく、かつ音も少ないので原音設定も短時間で済みやすいです。

対してセリフベースは音を集めようと思えばほぼ無限に集められますが、欲張りすぎると音が多すぎて原音設定がなかなか終わらない！なんてこともあります。

また歌声よりも音の密度が高く、全てをはっきり発音するわけでもないので、せっかく集めたのに全然歌わない！ということもあるわけです。

セリフベースで人力を作る際は、最低でも
・綺麗な母音　5音（ロングトーンが望ましい）
・まあまあ綺麗な子音、か行~わ行まで　9音
が取れればいけます。それ以上は、欲しいと思ったときに足すくらいの気持ちでいいかもしれません。

「原音設定しながら調声する」という方法もありますが、あまりオススメしません。~~大量の音素の中からどこに綺麗な音があるのか探しながらの調声はすごく時間が掛かってあまり好きではないので……~~

Ultimate Vocal Remover

録音をするときには、できるだけBGMやSEはオフにして、キャラクター音声のみを録音するようにします。
このとき音声以外の音が混じると、調声時に雑音として出力され機械音の原因になります。

ですが、歌声はセリフに比べて録音の難易度が高めです。
instを位相反転でぶつけるのが基本的な方法ですが、綺麗に抜き出せないことが多いです。

なので、「Ultimate Vocal Remover」というボーカル抽出ソフトを使用します。

無料で使用できる、高性能ボーカル抽出ソフトです。
instだけでなくエコーの除去も可能なので、非常に綺麗な音声を抽出することができます。すごい！

ちなみにinstだけでなくBGMやSEを消すこともできます！
音声によると思いますが、BGMやSEをオフにできない音声に対して、試しに使ってみるのはアリです。

音声抽出をやってみよう（歌声ベース）

説明が長くなりました。
今回は~~地獄を見たくないので~~歌声をベースにやっていきます。

「Ultimate Vocal Remover」を起動します。

①「Select Input」で音声抽出したい曲を選ぶ
②「Select Output」で保存先を指定する
③「MDX-Net」の「UVR-MDX-NET Main」を選ぶ
④「Start Processing」で開始

これでまずは音声の抽出を行います。他の設定は画像の通りで恐らく大丈夫です。
抽出が完了すると「Process Complete」と表示されます。

この時点で音声のみにはなりましたが、エコーが残っているのでそれも取り除きます。
③の部分を「VR Architecture」の「UVR-De-Echo-normal」に変更し再度抽出を行います。他設定は以下の通り。

「UVR-MDX-NET Main」「UVR-De-Echo-normal」がないとき
①Start Processing左のレンチを押し「Settings Guide」をひらく
②Settings Guide一番右「Download center」をひらく
③「UVR-MDX-NET Main」「UVR-De-Echo-normal」を探し、ダウンロード

これでエコーも全て取り除いた、音声のみのwavファイルの完成です。

②音素狩り

綺麗な録音データが用意できたので、ここからは「音素狩り」と呼ばれる作業に入っていきます。

「音素狩り」とは
セリフごとに名前を付けて保存していく作業のこと。人力に挑む者のだれもがまず通る道。

私は「REAPER」を使用しています。「s」を押すだけで分割できるところが好き。

セリフの分割

録音データまるまるをUTAUの原音として使うことは無理なので、セリフごとに分割していきます。セリフごとに分割して連続音用のデータを作っていきましょう。

音が途切れているところで分割してトラックを分ける、分割してトラックを分けるを繰り返していきます。後ほど細かく分けるので大まかで構いません。

大まかに分けられたら、次は以下に気をつけながら細かく分割していきます。分割しながら名前も付けます。（REAPERはトラック名で保存が可能）

・1つのファイルが1～8文字になるように
・途中で挟まるブレスが語尾息や息継ぎの場合は前の音と繋げる
・歌い出しのブレスの場合は単体でトラックへ
・促音（小さい「っ」）はセリフが長ければそこで分割
・発音の仕組み上、前の音との繋がりが一度なくなる
　「か行」「た行」はセリフが長ければ分割してもOK！
・綺麗に発音しなさそうな音はこの時点で切っておく

原音設定を意識したファイル名の付け方

同時に名前も設定していきます。
このあと原音設定することを考えて、特殊な名前の付け方をしていきます。

例としてとある文章を用意しました。こちらをご覧ください。

これを、

こうです。気をつけることは以下の通り。

・最初は絶対に_（アンダースコア）
　（ないとUTAUでファイル名がそのまま出てくる）
・促音の後など、音が途切れる場所でも_（アンダースコア）
・無声音（母音を使わず子音だけで発声する音。か行、さ行、た行が多い）
　は子音のみで表記し、その後は_で区切るかトラックごと分ける
・語尾息はRで表記

上記にはないポイントとして、
・「おおきい」など、同じ母音が続くところは1つの母音として数え、
　「おき」と言う名前で保存
（「a あ」や「o お」など同じ母音が続く音は使うことがほぼないので
　使う人や表現を凝りたい人は勿論1つにしなくてもOK！）
・超短くてはっきり聞こえない母音や "ん" は「a,i,u,e,o,n」の名前で保存

文字だけだと何も分からないと思うので、実際の音素狩りを見せながら解説していきます。

ファイル名をつけてみよう

これは「世界を救う」の「かいをすくう」の部分です。
最初の"せ"は綺麗じゃなかったので切りました。これを、

「_かいおすく」として保存します。
今回の "を" は "お" に近かったので "お" にして、「くう」は同じ母音が続いているので1つの母音としてまとめます。

続いて、これは「抱えないで」という音です。これを、

「_かt_かえないでR」として保存します。
"t" は促音、"R" は語尾息です。促音の後の音は_で区切ります。

とにかく、聞こえた音をそのまま名前にする意識で付けています。
歌詞や文字にとらわれず、何の音が発されているか、どう発音されたのか、途切れたのか繋がっているのか……
音通りに設定すれば、UTAUで調声するときに「こう発音して欲しいのに違う音なんですけど～！」とギャン泣きすることもありません。

こうした特殊な名前を付けるのは、この後登場する「setParam」というソフトでの原音設定をハイパー楽にするためです。
（原音設定編で解説予定）

ちなみに、名前付け分からなくても間違えても、原音設定時にいくらでも訂正できるし調声時にもUTAUの原音設定から変更できるので、

間違えても大丈夫！！なんとなくで大丈夫です！！
今この処理をしておくと原音設定がちょっと楽ってだけなんで！！

そんなこんなでいい感じに分割と名前付けができました。
保存する前に、全ての音の最初を0.2秒くらい、少しでいいので空けておきます。

REAPERでの出力例。各項目を画像の通りにすると全ファイルがトラック名で出力される。

全トラックをwavファイルとして出力したら、音素狩りは終了です！やった！忘れずに16bitにしよう！

まとめ

以上が、私が行っている音素狩りまでの手順です。簡単にまとめると、

①音声を準備する
②セリフを分割する
③原音設定を意識して名前を付ける

といった感じです。

人力の地盤は音声です。その音声を妥協せずに綺麗に仕上げることで、その後の調声に大きく響いてきます。
音さえ綺麗にできていれば、ゴリゴリに調声しなくても結構綺麗に歌ってくれます！これはマジです

次回は「原音設定」について解説していきます。

質問・感想などなど、大歓迎です！マシュマロまでお願いします。