見出し画像

UTAU式人力の作り方

「好きなキャラにあの歌を歌ってもらいたい!」「人力ボーカロイドの動画が好きで自分も作ってみたいけど難しそう…」「そもそもどうやって始めたらいいのかわからない」という人に向けた記事です。

ネットで検索するとTIPSのような情報は無限に出てくるのに、ゼロから形になるまで一貫して教えているようなまとまった情報って案外少ないんですよね。
この記事ではざっくりとではありますが、「どういう手順で」「何を使って」「どうすればいいのか」を説明します。
正直手間はかかりますが、技術的に難しいものではないので、ぜひ一度チャレンジしてみてください。

※この記事で紹介しているやり方はあくまで筆者のやり方です。
※この記事に書いてある事柄を実行、またはそれによる成果物をアップローダー、動画サイトなどに投稿したことによって生じた損害について、筆者は一切の責任を負いかねます。予めご了承ください。

はじめに

この記事をご覧の方はもうすでにご存じかと思いますが、UTAU式人力は(たいていの場合)版権キャラの声をサンプリングしたものをUTAUというソフトに読み込ませて歌唱させるというものです。
元々人力ボーカロイドはサンプリングした音声をDAWや波形編集ソフトで編集して歌唱させていました(切り貼り式)が、これにはある程度の知識と根気が必要です。音MAD制作では現在もこの手法が用いられています。
UTAUでは従来は手作業で行うことの多かった音の長さの編集や、ピッチの編集などを簡単に行うことが出来るため、より手軽に、綺麗に歌わせることが出来ます。なので、最近では音MAD以外で人力ボーカロイドを名乗っている動画はだいたいUTAUを使用しています。
でも、切り貼り式でも綺麗じゃないなんてことはなくて、音が元々の状態に近いまま歌わせることが出来るので上手い人がやるとものすごく生々しい歌唱になります。UTAUだと(エンジンによりますが)音がフラットになりやすいのでどうしても生々しさは消えてしまいます。だから何を求めるかで選ぶのがいいと思います。

また、これは二次創作全般に言えることですが、人力ボーカロイドは法的にグレーな創作活動です。
最近では生成AIを使用して声だけではなく歌い方までコピーした動画が話題になり、それに対して日本俳優連合は「声の無断利用」だという声明を出しました。
使用しているツールは違うとはいえ、「声の無断利用」をしているのは私たちも同じです。
利益を出すような行為をしない限り訴えられることはないと思いますが、充分ご注意ください。暗黙の了解として、制作したライブラリや素材の配布(個人間でのやりとりも含む)はやめたほうがいいです。

用意するもの

ここではUTAU式人力を使用するときに使うものを挙げます。

用意するもの(必須)
・パソコン
・モニター
・マウス
・キーボード
・イヤホン(またはヘッドホン)
・UTAU
・Audacity

あったら便利なもの
・イヤモニ(インイヤーモニター)
・スピーカー
・スマホ
・オーディオインターフェース
・Domino
・ピストンコラージュ
・UTAU用音声ライブラリ
・筆記用具
・電卓

一応ひとつひとつ解説します。

パソコン

UTAUはスマホでは扱えません。なのでパソコンは必須です。
メインで使用するソフトがUTAUとAudacityなので、そんなにスペックは必要ありません。その二つを使用するだけなら、現在ローエンド(例:CeleronもしくはCore i3、メモリ4GB程度)として販売されているパソコンで充分動かせます。動画編集ソフトやMMDなど他のソフトを使う場合はそちらに合わせましょう。

ミドルスペックとして売られているパソコン(例:Core i5もしくはi7、メモリ16GB程度)なら何をするにもたいてい困らないのでこのあたりがおすすめです。

動きの多い動画(MMDなど)を作る予定ならグラボを積んでおいたほうがいいかもしれません。
OSは他のソフトとの兼ね合いもあってWindows10以降のバージョンがいいです。MacでもUTAU Synthというソフトがありますが、機能が制限されています。

参考として、筆者はIntel Core i7-12700、メモリ16GB、SSD500GB、NVIDIA GeForce GTX 1660Super、Windows 11 Home という環境で動画制作含めて作業しています。この環境で作業がもたつくことはほぼありません。正直オーバースペックかなとも思っているのですが、快適なことに越したことはありません。

モニター

作業のしやすさ的には大きいほうがいいですが、基本的には映ればOKです。

マウス、キーボード

使いやすいものを。キーボードはテンキーレスだと作業スペースが広く使える。文字が光るものが便利。
手垢などの汚れが溜まりやすいので気づいたら掃除してください。

イヤホン(またはヘッドホン)

高価なものを買う必要はありませんが、あまり安すぎると音質が悪く、音が正しく聞けないので2000~5000円くらいのものがおすすめです。

UTAU、Audacity

今回メインで扱うソフトです。インストールの方法などはこの記事では説明しません。「ゼロから形になるまで」とは一体…
下記のリンクを参照してください。

第1章 UTAUをインストールする - UTAU クイックスタート (fc2.com)

Audacity ダウンロードと設定方法│CANCOM

イヤモニ(インイヤーモニター)

簡単に言うと、「極力味付けされていない、音質の良いイヤホン」です。
MIXの時にこれで聴きながら作業すると、だいたいどの環境でもバランスよく聞こえるような調整ができます。

ただ、イヤモニとして使用できる音質の良いイヤホンとなるとどうしても高価になってしまうので、用意できない場合は下記の方法を併用するなど、なるべく色んな環境で音をチェックしてください。

スピーカー、スマホ

新しいものを用意する必要はなく、あるもので大丈夫です。
筆者はgoogleドライブなどを使用してスマホに音源を入れてBluetoothのカーオーディオで試聴しています。
また、最近ではニコニコ動画やYouTubeの音楽をスマホで再生して本体のスピーカーから流して聴く人も多いので、そういった環境も想定するとニーズに合ったMIXが出来ます。

オーディオインターフェース

楽器やマイク、スピーカーなどをパソコンに接続するための機器です。
イヤホンをパソコンやモニターに直挿しでも構いませんが、これに繋ぐと、なんとなく音が良くなる気がします。
後々自作の音源を収録したくなった時にマイクを使用する場合はほぼ必須になります。

Domino

MIDI音楽編集ソフト「Domino(ドミノ)」 | TAKABO SOFT

オケがない(または著作権的に使用が難しい)時に自作するために使います。
最初に開いた状態から使用できるピアノで打ち込むだけでもそれっぽくなります。
UTAUが使用できる人ならそれほど難しくないです。

ピストンコラージュ

主に音MAD制作に使用されるソフトです。
ノイズ成分の多いのモンスターの鳴き声(「キシャー!」や「ギャアアア!」のような)など、UTAUで鳴らせない音を鳴らすときに使用します。
というのも、UTAUは歌声を合成するのに特化したソフトなので、音程が認識しづらい(=音程が変更できない)ノイズに近い音は鳴らせないんですよね。
このソフトならUTAUで認識できない音も音程を付けて鳴らせます。

UTAU用音声ライブラリ

自作したり調整したりしたUSTが上手く鳴らない時、それがUSTのせいなのか、音源のせいなのか判別できない場合があります。
そういう時は信頼性の高い(確実に音が鳴り、不具合の少ない)音源で試して確認します。

比較的癖が少なく、有名どころの音源を挙げました。
好みで選んで大丈夫ですが、出来れば同じ種類(女声/男声/少年声)の声のものを選んだほうがいいです。
あと、出来れば連続音と単独音の両方があると便利です。
この音源はオケとボーカルの位置合わせなどで「とりあえず歌っている音声データが欲しい」といった時などに仮歌シンガー的にも使用します。

筆記用具

作業中のちょっとしたこと(足りない音素をメモしておく、作業の進捗状況の記録など)をメモしておくのに便利です。

電卓

スマホの計算機機能で大丈夫です。
MIDI上の音符の長さは4分音符=480、8分音符=240、16分音符=120ですが、イレギュラーな長さの音符や打ち込みづらい長さの音符を数値で入力するときに音符の長さを計算します。

作業の流れ

本題です。大まかな作業の進め方は以下のようになります。
今回は単音階・単独音の音源を作成、使用することを前提として説明します。

①UST(または楽譜)、カラオケ音源を用意する
②素材集め
③BGM除去
④音素の切り出し
⑤音素の調整、UTAUに読み込ませる
⑥原音設定
⑦調声(最低限)
⑧調声(粗取り)
⑨調声(表情をつけよう)
⑩MIX

一つ一つ解説していきます。

①UST、カラオケ音源を用意する

本来ならば原音設定の後でもいいのですが、なぜ最初に持ってきたかというと、使える楽譜があるかないかで作業スケジュールが変わってくるからです。

まず最初に歌わせたい曲のUST(UTAU専用のMIDI譜のようなもの)を探します。
ニコニコ動画で「(歌わせたい曲名) UST配布」で検索すると、メジャーなボカロ曲なら大抵配布動画が見つかります。概要欄等に配布所のリンクが貼ってあるのでそこからダウンロードしてください。
これで見つからなくても「(歌わせたい曲名) UST」でキーワード検索すると、概要欄に「USTは〇〇様からお借りしました」と書かれている動画が見つかる場合があるので、もしそこに配布動画へのリンクがなくても、検索エンジンで「(歌わせたい曲名) 〇〇」で検索すると個人のブログなどの配布所が見つかることがあります。

USTが見つからない場合は自作しましょう。
楽譜が手元にある場合もしくはすぐに手に入る場合はUTAUに打ちこめば作れます。
もし探す場合は「メロディ譜」か「ピアノ弾き語り譜」という種類がおすすめです。
楽譜が見つからない場合、耳コピで作ります。WaveToneというソフトにオケをカット(後述)したボーカルのみの音源を入れると、大体の音程を解析してくれます。全く音感がなくても、ものすごく頑張ればUSTが作れることもあります。
ただ精度は良くないので、本格的に耳コピするなら有料ソフトを買ったほうがいいです。

USTも楽譜もなく耳コピも出来ないなら、採譜サービスに依頼するという手もあります。時期にもよりますが、納期は7~10日くらいだったと思います。
その間に他の作業を進めます。

ココナラ等のスキルマーケットでも依頼できるようです。

カラオケ音源はボカロ曲なら作曲者が原曲に使用したものをピアプロに上げていることが多いので、特にこだわりがなければそちらからダウンロードしてください。
J-POPならYouTubeに原曲に近いオケがある場合が多いので、チャンネルのページ等にある音源の利用規約を確認したうえで所定のページからダウンロードもしくはdirpyなどのツールを使って音声のみダウンロードしてください。

無い場合、もしくはあるけど著作権的に微妙な場合は自作してください。
楽譜さえあれば作れます。ピアノだけでもそれっぽいものが作れます。

②素材集め

※ここから先の項目では、アニメ『遊戯王ARC-V』に登場する「黒咲隼」のセリフを元にした音源を資料に解説します。リアルタイムで作ったものではないので不自然な点がありますがご容赦ください。

音源を作りたいキャラクターの声の素材を集めます。
ニコニコ動画やYouTubeにはゲームのボイス動画がたくさん上がっていますよね。こういう音源はBGMが入っていない場合が多いので素材として扱いやすいです。

具体的にどのようにして素材を集めるかというと…………

…………………………………


ヒントだけ申し上げますと、「内部音声 録音」で検索すると分かると思います。「ゼロから形になるまで」とは一体…
この方法ではあなたのパソコン上で鳴っているほぼすべての音を録音することが出来ます。

素材を集める際には、1セリフ単位で分けておくのが後々便利です。
集めた素材の音声ファイルは任意のフォルダにまとめておきます。筆者が使用しているソフトの保存形式がMP3なので、筆者は「(キャラ名)MP3」とつけますが、BGMを除去していないことが分かれば何でもいいです。

話数が多い時は各話ごとにファイルを作っておくと作業しやすい


また、ファイル名にはセリフの内容を「すべてひらがな」「聞こえたとおりに」書くのが良いです。

例を挙げると筆者は「良いだろう。仲間共々片づけてやる」というセリフは「いーだろーなかまともどもかたずけてやる」と表記します。このように表記することによって、音素ごとに切り分ける際に特定の音を検索しやすくなります。

また、素材は出来るだけたくさんあったほうがいいです。
歌わせたいキャラクターが主人公のように出番が多いキャラの場合だったら、30分アニメ2クール分(24~26話)程度はあったほうがいいです。
まあ、筆者が活動しているジャンルのアニメではサブキャラクターでもメインの回が2~3話あれば9割の音素は揃っちゃうんですけどね。
でも、現代日本語の特性上使われる頻度が少ない音がありまして、その音を取ろうとすると、どうしてもそのくらいの話数が必要になります。
特に「ぬ」「む」は頻度が少ないうえに他の音で代用することが難しいので見つけたら必ず取ってください。

③BGM除去

※ゲームのボイステストなど、元からBGMが入っていない素材の場合は、この工程は不要です。

アニメなどの映像作品から素材を集めるとほとんどの場合でBGMがなっていると思います。
音源の質を高めるためにはこのBGMを消して、キャラクターのセリフのみにしなければなりません。
とは言っても完全にBGMを消すことは非常に難しく、完全に消せたとしても声が劣化してしまっていることがあります。

筆者も色々試してみたのですが、一番仕上がりが良いツールを紹介します。

https://vocalremover.org/

こちらのツールは音声ファイルをアップロードするだけで自動でBGMとセリフ(人の声)に分けたファイルを作ってくれます。

ただこのツール、非常に性能は良いのですが、無課金だと1~3回くらい使っただけで「使いすぎだぞ」って警告が出て30分くらい使えなくなっちゃうんですよね。(これは課金しても1時間くらいぶっ通しで作業すると出ます)
人力のBGM除去のような使いかたをしていると、これでは使い物になりません。
開発者にカンパ(500円~)すれば制限が緩くなるので、払える手段があるならカンパしましょう。

出来たファイルをダウンロードするときに形式を選ぶことが出来るので、必要に応じて拡張子を選びましょう。
使い勝手を考えるとwavファイルとしてダウンロードするのが無難ですかね。
ダウンロードしたファイルは録音そのままのファイルが入ったフォルダとは別の、任意のフォルダにまとめておきます。筆者は「(キャラ名)wav」とつけますが、BGMが除去済みであることが分かれば何でもいいです。

④音素の切り出し

BGMを除去したファイルをAudacityに取り込んで、音素ごとに切り出します。

切り出す音素は単独音を収録するときに使用されるリストを参考にしましょう。

巽式難読抜き単独音リストを参考に挙げます(一部編集)

あ い う え お
か き く け こ
さ し す せ そ
た ち つ て と
な に ぬ ね の
は ひ ふ へ ほ
ま み む め も
や ゆ (いぇ)よ
ら り る れ ろ
わ (を) ん
が ぎ ぐ げ ご
ざ じ ず ぜ ぞ
だ でぃ どぅ で ど
ば び ぶ べ ぼ
ぱ ぴ ぷ ぺ ぽ
(きゃ きゅ きぇ きょ)
(しゃ しゅ しぇ しょ)
(ちゃ ちゅ ちぇ ちょ)
(にゃ にゅ にぇ にょ)
(ひゃ ひゅ ひぇ ひょ)
(みゃ みゅ みぇ みょ)
(りゃ りゅ りぇ りょ)
(ぎゃ ぎゅ ぎぇ ぎょ)
(じゃ じゅ じぇ じょ)
(びゃ びゅ びぇ びょ)
(ぴゃ ぴゅ ぴぇ ぴょ)
(うぃ うぇ うぉ)
(くぁ くぃ くぇ くぉ)
(すぃ ずぃ)
(つぁ つぃ つぇ つぉ)
(ふぁ ふぃ ふぇ ふぉ)
(ぐぁ ぐぃ ぐぇ ぐぉ)
(てぃ とぅ てゅ でゅ)
(息)

巽式難読抜き単独音リスト(一部編集)

これだけ取れれば、たいていの日本語の歌は不自由なく歌わせることが出来ます。
()がついた音に関しては不要、もしくはなくてもなんとかなる(誤魔化すことができる)のでどうしても見つからないときは諦めましょう。

理由と誤魔化しかたを簡単に説明しますと、

  • 「を」

現代の日本語では「お」と区別して発音する人は少ないです。声優さんも同じです。
区別・強調したいときは「うぉ」に変えます。

  • 拗音

UTAU上で合成できます。
やり方の例を挙げると、「ひゃ」という音を8分音符(長さ240)で鳴らしたい場合、「ごく短い音(30程度)+元々の音符から前者を長さを引いた長さ」に音符を分割して、「ひ」と「や」にエイリアスを書き換え、

「ひ」(30)+「や」(210)

のようにするとそれっぽく聞こえます。

  • 息(息継ぎの音)

UTAU上で合成できます。
適当な母音を選んでBRE100にするとノイズに近い音が得られるので、音量調整やg(ジェンダーファクター)などで音の太さを調節するなどして、息に近い質感を再現します。
実際に息の音を収録するのもいいのですが、ノイズが多い音なのでUTAU上で鳴らせない場合が多いです。

1つのセリフから取れそうなところをすべて取るやり方でもいいのですが、BGMを除去したファイルをまとめたフォルダを開いて、エクスプローラーの検索機能で欲しい音素(「あ」「あー」「っあ」など)を検索し、その中の良い音素が取れそうなファイルを選んで取り込む方法が効率が良いです。

良い音素が取れそうな条件を挙げます

  • セリフの始まりの部分(「いーだろーなかまともどもかたずけてやる」)

  • 息継ぎの直後(「いーだろーかまともどもかたずけてやる」)

  • 促音の直後(「あっとーてきなてきにたいしておれたちわとにかくじぶんおまもるのだけでせーいっいだっ」 )

単独音として人力音源を作る場合、子音が前の音の母音と混ざっていないほうががいいので、セリフの始まり部分や直前に息を止めている部分が適しています。

  • 長音(「いーろーなかまともどもかたずけてやる」)

長めに発音している音素のほうが綺麗に仕上がります

  • 普通に喋っている箇所

叫んでいる箇所やささやいている箇所からとるのは避けたほうがいいです。
出来るだけフラットな音素のほうが扱いが楽です。
ノイズ成分が多かったりピッチが荒ぶっていたりするので、UTAU上で鳴らせないこともあります。
音量に関しては大きいほうがいいですが、大きすぎるのもあまり良くないです。
また、語尾の音は小さく、ノイズ成分が多くなりやすいので避けたほうがいいです。

  • 加工されていない箇所

出来るだけエフェクト(マスクをしている、飴を咥えている等も含む)がかかっていない箇所を選びましょう。
理由は上記と同じです。

選んだファイルをAudacityに取り込むとこんな感じになります。

ステレオになっている場合もあります。UTAUはモノラルなので、容量が気になる場合はトラックの左端のファイル名の箇所をクリック→ステレオからモノラルに分離でトラックを分割した後どちらか片方のファイルを消してください。

上部のツールバーの選択ツール(大文字のⅠのようなアイコン)をクリックし、トラック上の取りたい場所にカーソルを合わせます。その状態のままツールバーの虫眼鏡に+-がついたアイコンをクリックすると、拡大縮小できます。

カーソルの部分をクリックしたままビーッとやると範囲選択ができます。
音の始まりの部分から音の最後の波形が小さくなる手前まで選択します。
そんなにきっちりやらなくてもいいです。後々原音設定するときに鳴らさない部分が設定できるので、細かい調整はその時にやります。
むしろここで必要な部分を削ってしまうと取り返しがつかないので、多めにとるくらいのつもりが良いです。
特に子音が長い音(さ行、は行など)は子音を短く切ってしまうと別の音に聞こえてくるので注意してください。

編集→ラベル→選択範囲にラベルを付けるをクリックするとトラックの下にラベルトラックが出てきます。

この状態でファイル→書き出し→複数ファイルの書き出しをクリックします。

するとこういうダイアログボックスが出てくるので、書き出し用のフォルダを選択してください。
これは今までに使ったものとは別に用意してください。フォルダ名は「(キャラ名)仮」などがいいと思います。
あと、ファイル分離基準は必ず「ラベル」にしてください。

「書き出し」をクリックするとまたダイアログボックスが出てきます。
特に何も書かずにOKを押します。
これで書き出し完了です。書き出したファイルの名前を変更するのは後で大丈夫です。
これを同じ種類の音がたくさんとれるまで繰り返します。
1種類につき1個の音素があれば一応歌わせることが出来ますが、実際にUTAUに取り込んでみると不備が見つかることも多いので、1種類につき最低3個、出来れば10個ほど確保しておきたいです。

満足いくまで音素を取り終えると、フォルダ内が

無題
無題-1
無題-2
無題-3
無題-4

みたいになっているはずです。これをすべて選択して音素の名前にすると、


あ(1)
あ(2)
あ(3)
あ(4)

のように一括で変更できます。便利ですね。
次の音も同じ手順で行います。

⑤音素の調整、UTAUに読み込ませる

切り出した音素をUTAU音源として使いやすいように調整する作業です。

まず声を太くする作業です
※プロの声優さんが演じている場合、ほとんどの方はちゃんと発声が出来ているため基本的にこの作業は不要ですが、一応説明します

切り出した音素を再びAudacityに取り込み、母音部分の、なるべく波形が安定しているように見えるところを選択します。

解析→スペクトル表示をクリックするとこんなダイアログボックスが出てくるので、ちょっと脇によけておいて、トラック全体を選択します。

ダイアログボックスの中身を解説しますと、これはどのくらいの周波数でどのくらいの大きさの音が鳴っているかを視覚化した表になります。
母音にはそれぞれの音がその発音として聞こえるための山があって、この「か」(「あ」)の場合はだいたい600~1770Hzがその山が集まっている部分になります。

トラック全てが選択された状態でエフェクト→グラフィックEQを開き、山が集まっている部分の音量を3~5dBほど底上げします。様子を見て足りなかったら少しずつ上げていってください。

まあ、でもすべての音に手作業でこんな処理をするのは面倒ですよね。
どうしても使いたいけどちょっと声が細いかも…みたいな音にピンポイントで使うのが良いと思います。

一応、処理しやすいようにすべての音を一つにまとめたトラックを作り、音圧爆上げくん(後述)に突っ込めば聞こえ方は良くなるのですが、音圧を上げる処理をすると音がスカスカになってしまうので原音の段階ではやらないほうがいいでしょう。

次はすべての音を同じ音量に揃える作業です。
実際に歌わせたときに音量が凸凹だとよろしくないので、この工程で揃えます。

切り取った音素が入っているファイルを開き、中身をすべて選択し、ドラッグアンドドロップでAudacityに取り込みます。

取り込むとこんな感じになります。ファイル数が多いので処理に数秒かかります。

Ctrl+Aですべてのファイルを選択、エフェクト→ノーマライズを押すとダイアログボックスが出てくるので、ここでは何も弄らずOKを押します。

すると、すべてのトラックの音量がだいたい同じになります。
この時、間違っても再生ボタンは押さないでください。(筆者はやったことはありませんが)死にます

ファイル→書き出し→複数ファイルの書き出しで任意のフォルダーに書き出しを行います。
ここで作ったファイルが決定稿になり、フォルダー名がそのままUTAU上に表示される名前になるので、保存するフォルダー名は「(キャラ名)」もしくは「(キャラ名)単独音」が良いでしょう。

この画像では出力先がvoiceフォルダになっていますが、実際には書き出しを行うことはできません。必ずドキュメント等の別の場所にあるフォルダに書き出してからUTAUに取り込みます。


ここからはUTAUでの作業になります。

エクスプローラーからローカルディスク(C:)→Program Files(x86)→UTAUを開くとUTAUに関するプログラムが保存されるところに行けるので、その中の「voice」フォルダに、先ほど作ったものをフォルダごとコピーします。

voiceフォルダの中身はこんな感じになります。
初期状態では「uta」(デフォルト、デフォ子、唄音ウタ)がすでに入っています。これでちゃんとUTAUで使えるようになったはずです。


⑥原音設定

ここまでの作業を終えると、一応UTAU上で音として鳴らすことはできます。
しかし、綺麗に歌ってもらうにはもう少し作業が必要です。
その大元となる「原音設定」をしていきます。

UTAUを起動し、まず、上部のプロジェクトからプロジェクトのプロパティを開きます。
原音ファイルセットの「デフォルト」になっている箇所の右側の▼をクリックすると音源の一覧が表示されるので、作った音源を選択してOKをクリックすると使用する音源を変えることが出来ます。
原音レポートは「OK」で大丈夫です。

ツール→原音の設定で、原音設定画面が出てきます。

表の上でダブルクリックすると原音を聞けるので、各音素の中で一番良さそうなものを選んで、原音設定をしていきます。

エイリアス(UTAU上の音符に歌詞として記入することで、その文字がついた原音が参照される)のついた音が優先的に使われるので、右端の「エイリアス」の欄に音の名前を記入しておきましょう。

原音設定が出来たら必ず「セット」をクリックし、原音設定のダイアログボックスを閉じるときは「OK」をクリックしてください。
そうしないとせっかく設定したデータが消えてしまいます。

原音を選択した状態でエディタを起動をクリックすると、エディタが出てきます。
この画面上で(見にくいですが)波形の上にオレンジ色の線が出ている原音はUTAU上で鳴らすことが出来る音です。
まれに取り込んで初めてUTAUを起動したときは出ないこともありますが、とりあえず作業を進めてください。


エディタのスペクトル表示モード。子音は母音とは全く違う帯域で鳴っていることが多いので、こちらを見るほうが分かりやすい。エディタの左上の「S」をクリックすることで切り替えられる。

エディタでは

  • オフセット・・・・・紫の部分

  • オーバーラップ・・・黄緑の線

  • 先行発声・・・・・・・赤い線

  • 固定範囲(子音部)ピンクの部分

  • ブランク・・・・・・紫の部分

を動かして、綺麗な音としてなるように設定します。

設定の目安は以下のような感じです。実際に曲の中で鳴らしてみて微調整してください。

  • オフセット 音が始まる部分

子音の前に明らかなノイズが入っている場合はその部分をカットしましょう。ブレスの場合は残しても残さなくてもどちらでもいいです。
滑舌や演技によっては、子音の前に「ん」に近い音が入っている場合があります。鳴らさないようにしたほうが無難です。

  • オーバーラップ 先行発声の1/2~1/3くらい、母音はオフセットと同じ。破裂音ではオフセットよりやや前か同じくらい

  • 先行発声 子音と母音の境目、母音はオフセットと同じ

  • 固定範囲 母音が安定してきたあたり

母音が安定してすぐでも、しばらくしてからでも、どちらでもいいです。

  • ブランク 波形が乱れ始める前

波形編集ソフトで音を切り取ると、どうしても切った部分の波形が乱れ、「プツっ」というノイズが入ります。
スペクトル表示を確認しながら、母音が安定しているところまでカットしましょう。

↓こちらに詳しく書いてあります。

原音設定が少し難しい音について解説します。

  • 「な行」「ま行」「や行」「わ行」

上記の音は子音自体が母音に似た性質を持っていて波形も似ているので、子音と母音の境目が分かりにくい場合があります。スペクトルも見つつ設定してください。

  • 拗音

基本的には他の音と同じですが、難易度は上がります。
スペクトル表示もあまりあてにならないので、自分の耳で聞いて調整してください。

  • 「つ」「さ行」「は行」

子音が長いです。ノイズっぽいところも子音の一部な場合があるので見極めは慎重に。
子音が長すぎる場合もオフセットにせずに、オーバーラップを長めにとって調整しましょう。

  • 母音結合用の原音設定

「あ行」と「ん」に用意する特殊な原音設定です。
通常の原音設定とは別に設定するので、原音をコピーしておきましょう。

表の上で右クリック→複製をクリックすれば、原音が複製されます。
エイリアスは一般配布音源ではだいたい「* あ」(半角アスタリスク+半角スペース+音名)の場合が多いですが、分かりやすく入力しやすければなんでもいいです。

原音設定の方法ですが、波形の真ん中の一番安定している部分以外オフセットとブランクに設定して、オーバーラップ70程度、先行発声はその半分、固定範囲は適度な長さに…らしいのですが、筆者もよく分かっていないので上記のまま設定しています。

一通り原音設定が終わって、UTAUを閉じてからUTAUのvoiceフォルダを開くと見覚えのないファイルが増えているはずです。

黒咲隼の音源では後述する現象が起きてしまっているため、別の人力音源フォルダの中身を表示しています。

拡張子がini、map、frqになっているファイルには先ほど原音設定した際のデータが入っているため、絶対に削除したり移動したりしないでください。
これらのファイルの生成に成功していれば基本的に音は鳴るようになっているはずです。

ごくまれに音源フォルダ内に上記のファイルがないにも関わらず、音源として問題なく使用できる場合があります。その場合も上記のファイルが生成されているので、普通に使用する分には特に何もしなくても問題なく使用できます。

参考までに何が起こっているのか説明します。
Windowsには仮想化フォルダ(VirtualStore)という機能があって、ソフトなどのシステムフォルダに上書き(UTAUの場合は原音設定ファイル等の作成があたります)すると、全く別の場所に出力されてしまうクッソ迷惑な素敵な機能があります。
Windowsは意地悪でこんなことをしているわけではなくて、重要なものに変なデータで上書きされたくないのでそれを回避するという意図があるらしいです。

こちらの音源フォルダの中には原音設定ファイルがありませんが、音源として使用できます。
あるべき場所にない原音設定ファイルですが、探すところを探せばちゃんとあります。

%LocalAppData%\VirtualStore もしくは C:¥Users¥[ユーザー名]¥AppData¥Local¥VirtualStore をエクスプローラーのアドレス欄に入力します。
するとこんな画面が出てきます。

Program Files(x86)→UTAU→voice→音源フォルダと同じ名前のフォルダの順に開いていくと、

はい、ありました。

ここにあるファイルは元の場所に戻してもまた行方不明になるだけなので、このままにしておいて大丈夫です。
どうしても気になる場合はドキュメントなどに保存してある原音ファイルと一緒にして別の場所にコピーしておいてください。バックアップになります。

⑦調声(最低限)

※この項目では鬼束ちひろの『Cage』のUSTを参考資料にしています。
練習用にUSTと簡易的なオケを上げておきますのでご自由にお使いください。
動画等に使用する際クレジット(ひたなこう)とリンクは任意です。報告不要です。

この項目以降では「連続音一括設定」「語尾のピッチを追加」

実際の人力音源で調声する前に、使用するUSTの確認作業をします。
今回はUTAU本体ではなくダウンロードしてあるUSTを開きます。
筆者はUST製作者が使っていたであろう音源を所持していたためそのまま開けましたが、USTに設定してある音源を所持していない場合、開くときに出てくるダイアログボックスから使用できる音源に変更しましょう。

※『Cage』の配布USTは連続音用になっています。連続音の音源をお持ちでない場合はこのままでは鳴らせないので、次の項目で説明する作業を先に行ってください。

全て選択した状態でツールバーの青い三角のボタンを押すと再生できます。
一通り歌わせてみて、抜けている音がない事を確認したら保存し、WAVファイルとして出力します。
プロジェクト→wavファイルを生成で保存できます(ここでは「cage_仮歌」)としました。

Audacityを開き、オケと仮歌を取り込みます。

このように、配布されているUSTはただオケと一緒にしただけでは合わないことがほとんどなので、位置合わせしないといけません。
まず仮歌をミュートにして、オケを原曲と聞き比べながら、どこからボーカルが入るのか確認します。

だいたいここかなと思ったら、選択ツールで印をつけて、移動ツールで仮歌のトラックの位置を移動させます。

聞きながら調整して位置が合わせられたら、一通り最後まで聞きます。
途中でオケとボーカルがズレ始めたらオケとテンポ(bpm)があっていない、もしくは間奏部分の休符の長さが正しくないなどの原因が考えられますのでUSTを修正してオケに合わせる必要があります。
※配布されているUSTは基本的に何かしらの不備があると思っていたほうがいいです

あと、ボーカルはMIXでリバーブ系のエフェクトをかけることが多いので、エフェクトが途中で切れてしまわないようにUSTの最後に1小節分の休符を入れておきましょう。

USTの修正が終わったら再び仮歌として出力して、Audacityに取り込んで位置合わせしておいてください。
位置合わせが終わったら、このプロジェクトはあとで使うので消さずに保存しておきます。


いよいよ実際に人力音源に歌わせる作業に入ります。
使用音源を人力音源に変更したら、改めてUSTを見てみましょう。

……ふむふむ、これは連続音用のUSTですね。
このままでは単独音の音源では使えないので、書き換えます。

譜面の何もないところを右クリック→すべて選択を押すと、すべての音符の色が変わります。
その状態でツール→プラグイン→連続音一括設定を開きます。

「歌詞を置き換える」の「単独音」、* 付きの単独音にチェックを入れます。
すでに調声済みのUSTの場合は、右上の「エンベロープの初期化」「エンベロープの正規化」「ポルタメント」のチェックを外してください。

OKを押すと歌詞が書き換わります。

なんか!マークが出てますね。
このまま歌わせても音が鳴らないことが多いので、直していきます。

音符を右クリック→エンベロープをクリックするとエンベロープ(音の切り取り方の指定、一つの音符の中でどのように音量が変化するか)の編集画面が出てきます。
正規化をクリックするとグラフの形が変わるので、そのままOKをすると!マークが消えて音が正常に鳴るようになります。
それでも消えなかったらリセット→OKにすれば鳴ります。
この作業をすべての!マークが消えるまでやります。

実際に歌わせてみましょう。

鳴らない(音素がない)音は似た発音の別の音に置き換えたり、音素の切り出しの拗音の項目で紹介した方法の応用(「め」の場合「む」+「* え」などう段の音+母音の組み合わせ)で誤魔化します。

一通り音が鳴ることを確認したら、母音結合をします。
これは、母音が前の音と滑らかにするための処理です。
例えば「あい」「ない」といった、後ろの母音が前の音に強くむずびついた歌詞の場合はこれをするのとしないのとでは仕上がりが段違いに変わります。
再びすべてを選択した状態で、ツール→組み込みツール→母音結合をクリックします。

個人的にはこの時、音量の項目はチェックを外しておいたほうがいいです。OKを押すと、音符のエンベロープの形と重なり方が変わるはずです。
この時も!マークが出ることがあるので、先ほどと同じようにすべて処理してから次の工程に移ります。

次は歌詞を母音結合用のエイリアスに書き換えます。
この作業は直前に休符以外の音符がある母音に行います。

音符の上でダブルクリックすると歌詞が変えられるので、母音結合用のエイリアスに書き換えましょう。

範囲選択した状態でどれかの音符を右クリック→複数選択のプロパティから歌詞を一括で変換することもできます。

最後はピッチの設定です。
何もないところで右クリック→全て選択したあと、音符の上で右クリック→ピッチをクリックすると一括で設定できます。

ビブラートにチェックを入れます。この譜面では8分音符より長い音符にビブラートをかけたいので、除外の指定を「8分音符以下」にします。
もし高さの違う音符を繋ぐ線が出ていない場合は、ポルタメント→プリセットにチェックを入れます。

あとははフレーズの最初の音の音量を110~120にすれば、最低限の調声は完了です。

音源によってはこれだけでも充分に「聴ける」レベルになります。
ですが、人力音源はそんなに簡単にいく音源ばかりではないので、次の項目では聴きづらい部分を改善する方法を解説します。

⑧調声(粗取り)

この項目では主にFlagという声にフィルターをかける機能を使用してなるべく聴きやすいように歌声を改善します。

  • 声が細い・不安定

単音階の男声音源だとどうしてもF4~B4あたりが不安定になります。男性が歌唱する場合、一般的にG4前後を喚起点(地声から裏声に切り替える)とするからで、要は「本来は裏声で歌うべきなのに無理矢理地声のまま歌わせているから苦しそうに聞こえる」わけです。
後述の裏声っぽくするflagをかけるのもありですが、地声の響きのままにしたい場合は該当する音符のプロパティを開き、Flagsの欄に「g3」を入力しましょう。
声が太くなるので不安定さは改善されます。あまり数値を増やしすぎると声質が変わってしまうので様子を見て使ってください。

全体的に声が細い音源は一括でgを上げて様子を見てください。

  • 声がザラザラして聴きづらい

BRE(基本値50)もしくはY(基本値100)の数値を低く設定します。
この2つは主に声の息(ノイズ)成分に関わるFlagで、BREは音全体、Yは母音部分のみ反映されます。
この数値をBREだったら20~30、Yだったら60程度にすることで声のざらつきを抑えられます。

ダミ声あるいはハスキーボイスと呼ばれるキャラの音源を作ったらこうなります。
強めにFlagをかければ歌としては綺麗になりますが、あまり強くしてしまうとそのキャラらしさがなくなってしまいます。
逆に汚さを残したまま、それ以外の部分を上手く調整してリアリティを出すというのもアリですね。
参考資料にしている黒咲さんの音源もこのタイプなので、BRE20Y60などのフラグをかけています。

  • 声がキンキンする

C(基本値0)を上げます。大体20~50くらいが目安です。
これは高音を削るフィルターなので音が柔らかくなり、キンキンした感じが軽減されます。

Yの値を低く設定しすぎるとキンキンしますので適宜上げてください。

  • 発音が強すぎる

これは正直どうしようもないです。
どうしようもないですが、ある程度は軽減できます。
C(高音域を抑える)、D(中音域を抑える)、E(低音域と高音域の抑える)などのFlagを使って音を曇らせるとだいぶマシになります。
この方法はピンポイントで使うことをお勧めします。

いっそ全体にささやき系のflag(B30Y90F6h85)をかけるのもありですかね。曲にもよりますが。
このFlagは細かい数値を変えることで色々応用が出来るので、覚えておいて損はないです。

(参考)サビ以外の部分にB30Y90F6h85をかけています。

  • 滑舌が悪い・発音が弱い

Yを下げます。母音のBREを下げることで相対的に子音が目立つようになるので、滑舌が良くなります。
ただ、前述したとおりY0など極端に下げすぎるとキンキンするので下げすぎないようにしましょう。

⑨調声(表情をつけよう)

※この項目のピッチ調整では主にmode2を使用する方法を解説します。

私も初心者なので、調声はそんなに上手くないですが参考になりそうなテクニックを挙げておきます。

  • こぶし

V字タイプ

フレーズの最初や強調に使います。後述の「語頭を上げる」と合わせて使うこともあります。
母音の始まり部分を1~2音ほど下げます。上のV字タイプが基本形です。

U字タイプ

こちらは底の部分を広くしたタイプです。よりドラマティックになりますが、やりすぎると音痴になるので注意。

つり上げ+V字タイプ

語頭を上げるテクニックと組み合わせたタイプ。振り絞るような発声になります。

  • しゃくり

このUSTはmode1で編集していますが、mode2でもできます。

音符本来の音程よりも低い位置からピッチをずり上げるテクニックです。
迫力を出したいときに使います。主に音程が上がる部分に使います。

  • がなり

「そらにつばおはく」

細かいビブラートをかけ、音量を上げることによりがなっているように聞こえます。

mode2でも出来ますが、mode1でピッチエディタを開いて制御点を1つずつ上下にずらしていくといい感じに荒っぽさが出せます。

音量は150くらいに設定します。
エンベロープはそのままでもいいですが、音符の始まり部分の音量を上げて子音を強調してもいいと思います。

  • ウィスパーボイス

「粗取り」で紹介したささやき系のflag(B30Y90F6h85)を使用します。
通常の強さの音源ならこれでウィスパーボイスっぽくなりますが、強めの音源だとぼそぼそくらいにしかならないので調整が必要ですね。

  • 語頭を上げる

上擦った感じが出ます。
後述の裏声っぽくするflagに合わせるとより効果的になります。
フレーズの最初や音程が急激に上がる部分に使用します。

  • 語尾を上げる

サビ前の盛り上がるところに使うことが多いです。楽しそうな感じになります。

音符を選択した状態で、ツール→プラグイン→語尾のピッチを追加をクリックします。

ピッチの上下幅を2半音、変化の幅を20%(短い音符の場合もう少し長くしたほうがいいです)にします。

  • 裏声(ファルセット)

男声の場合は音程が上がると自然と裏声っぽくなりますが、Y30F4h50などささやき系のflag(B30Y90F6h85)を弱めたものをかけるとより自然な裏声になります。
g3〜5程度を下げると裏返った感じになりますが、広範囲で使うのは不自然になるのでやめたほうがいいです。裏声の最初の音だけなどピンポイントで使うと効果的です。
裏声っぽく聞こえる方法は他にもあるらしいのですが、絶対これ!というものが見当たらないので人それぞれなんでしょうね。

実際の歌唱での裏声は3種類(頭声、ミックスボイス、ファルセット)ありますが、こちらで紹介したものはファルセットになります。

  • メインボーカルに安定感を出す

メインボーカルを1オクターブ下げたハモリパートを用意し、gを5〜10程度上げたものを音量を下げてメインボーカルに重ねます。

  • ハモリに透明感を加えたい

ハモリパートを1オクターブ上げたUSTを用意し、音量を下げてハモリパートに重ねます。
あと、これは否定的な意見もあると思うのですが、gを15~20下げて女声っぽくする方法もあります。

⑩MIX

※音量が大きいトラックを扱うことが多いので、パソコン本体の音量を調節して作業してください。長時間大音量で聴いていると音響外傷になり、聴力に支障をきたす恐れがあります。
※AudacityはMIX用のソフトではなくあくまで波形編集ソフトなのでMIXをするには力不足ですが、簡易的なMIXなら出来るので今回はAudacityを使用します。

一通り調声が済んだUSTをwavファイルとして出力し、いい感じに調整してオケと合わせる作業です。

調声(最低限)の項で紹介した方法でボーカルのwavファイルを作成します。ハモリパートもあればすべて忘れずに出力しておいてください。

音圧爆上げくんにアクセスし会員登録完了後に、1パートずつwavファイルを読み込ませて、出来たファイルをダウンロードすれば音圧上げ作業は完了です。
筆者の環境だけかもしれないのですが、このアプリ、以前から若干挙動が不安定でこの記事を書いている現在いくら環境を変えても使えなかったので、この処理を行ったというていで説明を進めさせていただきます。

微調整、手動でやる場合は⑤音素の調整で説明したのと同じ方法で、まずAudacityに取り込んだボーカルパートを全選択→スペクトル表示でフォルマントが集中している帯域を探す→その部分を底上げ、そのあとに特に強調したい音を再び同じ方法で上げていくという方法をとります。
この時に200~300kHz以下の基音部を若干削ったほうが声のこもった感じがなくなってクリアに聞こえるのですが、削りすぎると音がスカスカになってしまうので気を付けてください。

音圧上げ作業が完了したファイルを、USTチェックの時に使用したAudacityのプロジェクトに取り込みます。

仮歌のトラックと同じ位置に合わせ、仮歌はミュートにしておきます。
とりあえず聞いてみましょう。

…………ちょっとボーカルがデカすぎますね。
まあ、それは置いといて、ボーカルの音量バランスの調整をしましょう。

その前に典型的なJ-POPの構成を説明します。
Aメロ①
Bメロ①      ○
サビ①  ◎
Aメロ②
Bメロ②   ○
サビ②  ◎
Cメロ
ラスサビ ◎
○がついた箇所は大きめに、◎はさらに大きめの音量に設定します

楽曲は多くの場合、サビの一番盛り上がる部分のオケのボリュームが大きくなっているので、ボーカルもその部分のボリュームを上げないとオケに埋もれてしまいます。サビの前のBメロもだんだん盛り上がってくる箇所なので、BメロもAメロより上げたほうがいいでしょう。

サビの部分を選択し、エフェクト→増幅をクリックします。
ダイアログボックスの一番上の入力欄に1より大きい数値を入力してOKを押すと波形が大きくなります。今回は2.5を1番サビ、2番サビ、Cメロ後半~最後までに適用しました。Bメロは区別がつきにくいので調整していません。

リバーブもかけます。
トラックをすべて選択して、メインボーカルだったらエフェクト→リバーブで開いた状態そのまま(もしくは管理→出荷時プリセット→ボーカルⅠ)で大丈夫です。

若干の反響がついて、透明感が出ましたね。

一通り作業を終えるとこんな感じになります。オケのトラックもやや音量を上げました。

完成したら書き出します。
書き出し→wavとして書き出しを選択し、任意の場所に保存します。

再びAudacityを新規で立ち上げ、さっき保存した音源を取り込みます。
青い波形が広い範囲でトラックの縦幅いっぱいになっていたら、すべて選択した状態で、エフェクト→ノーマライズをします。音割れ対策です。

音割れ対策をした音源を書き出せば完了です。
お疲れさまでした。

あとはスマホに作った音源を入れて聞くなりして楽しんでください。
ウタローダーなどのアップローダーに投稿したり、動画を付けて動画サイトにアップするのを目標にするとモチベーションがアップします。

おわりに

ここまで読んでみて、また作業を終えてみてどうでしたか?
もし、まだ出来そうだなと思ったら続けてみてください。

参考資料・楽曲

UTAU式人力特化でMIXを語ってみる|キジ(るし) (note.com)


この記事が気に入ったらサポートをしてみませんか?