ACE Studioのカスタムシンガー制作レポ日記
みなさまごきげんよう! とーごア洋志です。
普段は主にUTAU音源制作をしています。
この記事はタイトル通り、ACE Studioのカスタムシンガー(ACE Studio日本公式ツイッターアカウントがこの表記でツイートしていたのでそれに倣うことにします)の制作レポです。
UTAU音源制作をしている方向けに書いたものなので、そこらへんの前提知識(と多少の周辺知識)がないとわからない部分があるかもしれませんがご了承ください。
先日ACE Studioのカスタムシンガーを作ったところ、「興味あるけど作り方が分からない」「ノイズ除去とかピッチ補正とかめんどくさい」「どうやって作るの?」「コラボ席って何?」などさまざまなお声を見かけました。
なので、いっそ作ってみての流れや感想とかをレポとしてまとめてみるか……と思い書いた次第です。
カスタムシンガーって何?
ACE Studioという歌声合成ソフトで、自分の声で歌う音源を作れる機能で作ったボイスバンクのことです。
ACE Studioにはもちろん公式のシンガーもいる(もともとUTAU音源があるシンガーさんも!)のですが、それの自音源版を作れるという数年前の私が見た夢みたいな機能ですね……
👇詳しくは公式サイトを見たり検索してください。
歌わせるときはピッチも抑揚も自動でつけてくれるので、ベタ打ちの、何もいじっていない状態でもだいぶ良い感じに歌ってくれます。
👇私が作ったカスタムシンガーはこんな感じ。すごくすごい……
(クリックすると再生ページに飛びます!)
ピッチ補正も原音設定もいらない
歌に自信が無くても、大量のラベリング(原音設定)をこなす力がなくても大丈夫!
録音した声をアップロードしたらできることは待つこと、ただそれだけ。
ピッチ補正:不要(出したい音程から外れてもOK!)
ノイズ除去:やらなくても大丈夫だけどやった方が綺麗。
曲:特に指定なし。喋り声でもOKだそうです。
少なくとも10分ぶんくらいは必要。声:自分の声または、音声提供者にしっかり使用許可を得た音声。
私は今回2オクターブくらいの幅で声を出したので各音域で声色が結構変わったのですが、そういう発声をしてもカスタムシンガーでは滑らかなグラデーションになるっぽいです。ここらへんはUTAUのprefix.mapにちょっと感覚が近いかも。(ファルセットにする以外の編集はできませんが)【2024年8月31日追記】発音:UTAUのように必要な音素全てを網羅する必要なし!
ラベリング(原音設定):不要! 待つだけ!!
原音の録音に関しては、ピッチ補正が不要なところがDiffsingerとかに近い気がします。なので、ピッチに気を付けるよりは声色や歌い方に気を付ける方が良いかも?
音程を外して「(あ…!)」っと思ってその直後の声が気弱に掠れちゃうより、音を外しても「これはそういうメロディーだが?」くらい堂々と歌う方が綺麗な音源が作れるような気がします。ジャイアンくらい気持ちよく堂々と歌おう。
ピッチはACEがなんとかしてくれることでしょう。他の音源の歌い方(スタイル)を借りることもできます!
(これは音声モデルが同一のモデル同士のみできるようです)
発音を網羅する必要がないところや、他のシンガーのスタイルを借りられるところなどは、So-vits-SVCとかRVCとかのボイスチェンジャーっぽい側面もある気がします。
また、完成したカスタムシンガーの発音、特に子音が間違っていることがありますが、調声時にある程度は修正可能です。
UTAU音源の原音でカスタムシンガーを作ることも可能
UTAU音源の原音を使ってカスタムシンガーを作った方から聞いた話ですが、UTAUのリストにはよくある音素、例えば「すぃ」の発音が「し」と混同されてラベリングされてるっぽい感覚があるらしいです。
なので、そういう発音は抜いてトレーニングすると発音が綺麗な音源ができるかも? とのことです。
無理に原音を全部入れる必要はないのが良いところですね……!
また、UTAUで調声して出力した音声をいれてトレーニングさせると機械っぽいノイズが出ることがあり、またその音源らしくなるとは限らないそうです。
ちなみに、声の出し方に特徴があるUTAU音源をトレーニングして他のシンガーの歌唱スタイルで歌わせると、歌っている時の声の出し方までやや似るので相性によってはそのキャラっぽさが損なわれ中の人の素の歌声に似ることがありました。発音も、子音が強めのUTAU音源が他のシンガーのスタイルで歌うことによって一般的な(?)普通くらいの強さの子音になったりします。こればかりは……仕方ない……!
キャラらしさを追い求めたいなら歌を録音するのが良さそうです。
UTAUの原音を使ってカスタムシンガーを作り、スタイルもデフォルトのまま歌わせるとUTAUの原音の雰囲気そのままの歌い方になる="子音の癖が強いというスタイル"の歌い方がデフォルトで使えるようになるため……
ただ、これらは多音階音源でカスタムシンガーを作った場合の話なので、単音階の原音を元に作ったカスタムシンガーが他のシンガーのスタイルで歌った場合どのくらい中の人っぽさが出るかはわかりません。
個人的なおすすめはこんな感じです。
とりあえず作ってみたい人→UTAUの原音で作ってみよう!
既存のキャラっぽい歌声のシンガーをお試しで作りたい人→UTAUの原音で作ってみよう!
既存のキャラっぽい歌声のシンガーを歌い癖込みで作りたい人→歌おう!
※歌い癖には発音の癖だけでなく声色の癖も含まれます。
逆に唯一必要なものはお金(サブスク契約についての説明はここ)
ACE StudioはUTAUのように全て無料でというわけにはいかず、ソフト自体を使用するためにまずサブスクに入ってお金を払う必要があります。
一番最初に無料でお試しできる期間がありますが、カスタムシンガーを作れるのは課金後です!
サブスクに入ることで1音源または5音源のカスタムシンガーを作ることができるようになります。これは枠の話なので、アーティストプランでカスタムシンガーを作れる枠が1枠ある場合、シンガーを作り直せば他の声の音源も作ることができます。
トレーニングのやり直し(音源作り直し)はどのプランでもできるようなので、気になったらとりあえず作ってみて、そこからまた録り直したり音声ファイルを追加したりすることも可能です。
①作るきっかけ
ACE Studioに自音源が作れるカスタムシンガー機能が実装されるぞ!
という情報が公式から出たあたりからすでに気になっていたのですが、いざ実装されてプランを見てみたら、作るのに3万~10万くらいかかる!
ということで、ある程度お金が貯まったときにまた考えるか……と思ったら、いつの間にかサブスクに入ってさえいれば一番安いプランでもカスタムシンガーが1つ作れるようになっていました。
みなさん!サブスクに入ると自音源が1つ作れますよ!!!!
ありがた~~い!!
※ACE Studioを使うにはサブスクに入る必要があるし、サブスクを解約するとカスタムシンガーは使えなくなります。また契約すれば使えるようになるそうです。
そして「気になる~作りたいな~」と軽い気持ちでツイートしたらリプでカスタムシンガー作成済の方々にいいよおすすめだよと囲まれたため、これはもう作るしかないと思い壊れていたヘッドホンの替えを買いました。
(ちょうどヘッドホンがぶっ壊れて録音ができない状態だった)
②いざ!録音!
私の場合はもともとDiffsingerを作りたくて童謡などを歌った音声が3~5分くらいぶんだけあったため、そこに追加録音する形で量を増やしました。
追加録音を始めたのは、朝から出勤して即退勤ののち、車で親戚の家に行きそこの飼い猫にどえらい勢いで逃げられ交流に失敗したあと、ソフトクリームを食いまくって車内で寝まくり、夜なのに元気が有り余って寝られない! という元気に過ごした一日が終わり始める金曜日夜20時のことでした。
だいたい3時間半くらいずっと歌い続けて録音を切り上げました。
まるで一人カラオケですね。楽しかったです。
録音が終わったのが23時40分くらいだったので、録音した歌声の選別やノイズ除去はまた後日やろうと一度布団に入りました。
が、全然眠たくなかったのでそのまま作業は選別・書き出し・ノイズ除去へ。ノイズ除去はUTAU音源を作る時と同じ要領でやりました。
UTAU音源を作る時もそうなんですが、音源制作って録音よりその後のノイズ除去と原音設定が一番時間かかるんですよね……!!!
今回も録音より選別・ノイズ除去の方が時間がかかりました!
ラベリング自分でやらない分いつもよりマシか! ワハハハ
③いざ!トレーニング!
カスタムシンガーを作る際に使う音声ファイルには長さとかの規定があります。このページに載っているんですが、私はアップロードしようとしたときに一部の文章の見逃しに気付いて全音声を再編集する羽目になりました。
英語だけどちゃんと見ておくのが吉……!
👇こんな感じで縛りが色々あります。(一部のみご紹介)
※2024年8月24日の時点。
1つの音声ファイルの長さは10秒以上10分以下
UTAU音源でやるときは1音階の原音をwavTarなどで1本か2本くらいにまとめるのが良いと思います。各音声ファイルは、発声の前後に無音区間が2秒以上必要
これを追加する作業をしました。ひとつの音声ファイル内で言語を混ぜない
例えば日本語歌詞の中に英語歌詞が出てくる曲は、英語部分は歌わないか、英語をカタカナ発音で歌うとかが良いのかもしれません……ひとつの音声ファイル内で過度の音量差がないようにする
低音の声が小さめなのをそのままトレーニングしたので低音が小さい音源になりました。まあMIXでなんとかできるのでこれはこれでいいか……できるだけ広範囲の音域で録音する
頑張って2オクターブくらい出しました…!
裏声で録音したUTAU音源をカスタムシンガー化したいという事情により全部裏声での発声なので低音がちょっと大変でしたが、今までUTAU音源を録音する過程で鍛えられていたのでなんとかなりました……
とまあ、あれこれやっていたら日が昇り、トレーニングが始まったのが朝の8時前! 朝にしても朝すぎる 普通の徹夜だったら5時くらいにもう寝てる
トレーニングの順番待ちが1人分あったので実際にトレーニングを開始しようとしたのはもう少し前ですが、1時間かからないくらいで順番待ちが解消された記憶があります。
④トレーニングの待ち時間で衣装デザイン考えてたら思ったより早く完成しちゃった
約90分でできるよ! という表示が出て、ここまできて寝てしまうよりはもうずっと起きていた方が良さそうだと思い暇つぶしをすることにしました。
せっかくなので、今回の歌声で既にUTAU音源・キャラクターとして存在している「とーごイ洋志」のACE用衣装デザインを練りつつ待ちます。
靴を考える前にカスタムシンガーできちゃった……!!!!!!
ということで、90分もかからずに完成してしまいました。
音声ファイルの合計が30~40分ぶんと少なめな量だったからでしょうか、速い。
この数日後にカスタムシンガーを作ろうとした人は夜だか昼だかにやろうとして32人待ちだったらしいので、私は偶然ちょうど空いている時間に作成できたのかもしれません。日本時間の午前7時とか8時。
でも翌日にはできていたらしいのでそんなにめちゃくちゃいっぱい待たされる感じでもないっぽいです。
みんなも衣装デザインとか完成したシンガーに歌ってもらいたい歌とかを考えて暇をつぶそう!
デプロイ ~わたくしは𝑾𝒆𝒍𝒍-𝑫𝒐𝒏𝒆をいただきますわ~
さて、カスタムシンガーが完成したら管理画面が表示されます。
このように。
このお肉の焼き加減みたいなやつはそれぞれ学習の進捗が違うらしく、Rareが声は歌い癖の反映が弱め、Well-Doneが歌い癖の反映が強めという感じっぽいです。つまりRareはトレーニングの最初の方の段階で事前学習モデルの影響がまだ強めにあり、Well-Doneが終わりの方の段階でトレーニング用の音声の影響が強い……なんだと思います。間違っていたらごめんなさい!
私は色々聴き比べた結果、Well-Doneが良い感じだったのでデプロイ(設定して音源に反映)して使っています。
⑤いざ!コラボ席へ招待!
カスタムシンガー実装時からの個人的ナンバーワンな謎、コラボ席。
コラボ席って……何? 英語だとCollab seats。そのまますぎる。
UTAUにはたぶん存在しなかった概念ですよね。
DLL音源が普及していたら存在してた可能性もある?
ACE Studioのカスタムシンガーを制作者以外の人に使ってもらうには、使う人のUID(ユーザーID)をコラボ席に登録する必要があります。
コラボ席に登録されたUIDのアカウントでACE Studioを開くと、「コラボシンガー」というタブにカスタムシンガーが現れて使えるようになっているわけです。
👇このように。
コラボ席はたしか、サブスクのアーティストプランだと1シンガーにつき10席までしか枠がありません。アーティストProプランだとどうだったかな……1シンガー99席までに増えました!ちなみにアーティストProプランでも同じくです。昨日アップグレードしました。(2024年9月25日追記)
たぶん10席だと思うんですが、ご興味ある方は調べてみてください。
コラボ席が無限に欲しい方は無制限スロットを購入すると良いでしょう。
買い切りの永久スロットなので、もしあなたがサブスクを解約しても他の人は使い続けられるっぽいです。
私も購入を検討しているのですが、一番安いBasic版は多言語に対応しておらず、日本語・英語・中国語に対応しているPro版は99,000円なのでガチ悩み中です。10月のUTAてるのに向けての諸々の出費が……重なっており……!
もし買ったらまた記事にしようかな~!! と思っています。
現在、ACE Studioカスタムシンガー「とーごイ洋志」のコラボ席がいくつか空いているため、使ってみたい! という方はTwitterのDMまでお声がけください。「枠を埋めてしまうのが心苦しいけど1か月だけお試しで使ってみたい」とかも全然OKです!
※相互フォロワーさん限定
また、このGoogleフォームを作った副産物としてできたコラボ席登録受付用のGoogleフォームテンプレートをついでに配布します。
使って何か困ることが起きても私は責任は負えませんが、ご自由に改変してお使いください。日本語/韓国語に対応しています。
https://docs.google.com/forms/d/1PIirWphoXv58hzQWuogavBBe-23uX37w_CvUOfo2aRo/template/preview
⑤-2 全ACEユーザーにカスタムシンガーを共有できる「Voice Library」が増えましたね
2024年9月25日、新たな機能が増えたっぽいです。
その名もVoice Library。
詳しくは公式のページを見よう!あと公式のカスタムシンガーを管理する画面とかにもわかりやすい日本語FAQsがあります。そっち見るのもオススメ。
制作したカスタムシンガーを、世界中にシェアできる……!
多分今日公開された機能 & カスタムシンガーを世界に公開するには審査が必要なせいか、まだ誰もいませんでした。そりゃそうか。
と思いきや、サンプルタブには3つ、ある……!?
まだよくわかっていないんですが、「AIシンガー(カスタムシンガー)」「サンプル」「テンプレート」の3ジャンルをユーザーは公開できる感じっぽいですね……?
サンプルはMIDIでテンプレートは.acepファイル。両方ユーザーがACE Studioで使えるやつらしいです。公開したい人はACE Studioで作ったオリジナルのものをメールして審査を申し込む感じらしい。
ちなみにコラボ席は1シンガー10席までだったのが99席に増えましたね。
やった~~!!!!!
つまりカスタムシンガーを自分以外の人に使ってもらう機能が2種類に増えたわけですが、それではコラボ席(「シェア」機能)とVoice Library(「創作コミュニティに公開」機能)は何が違うんでしょうか?
これはどうやらこういうことっぽいです。
・コラボ席(シェア):今まで通り、制作者がUID紐づけるとユーザーが使えるようになる。
・創作コミュニティに公開:申請したカスタムシンガーが審査 & コピーされ、ACE Studioユーザーは商業非商用問わず、帰属表示なしで使えるようになる。
今まで通りコラボ席でシェアするなら利用規約は自分で好きに定められそうですが、創作コミュニティに公開のほうでそれをやるのはちょっと難しそう? という感じ。
UTAUの文化に馴染んだ我々以外の人も使えるようになるので、公開したらどんな使われ方されるか全然わからないな~というのが率直な感想です。
様々見た感じ、2024年9月25日現在ではこういう仕様っぽい。
※今後変更される場合も当然あると思うので公式の情報を確認してみてくださいね…! これは2024年9月25日の日本時間19時台での情報です!
公開には審査が必要。審査が拒否された場合はメールが来る。
シンガーの名前やアイコン、タグは後から修正できるけどシンガーのモデル自体は修正できない。ちなみに全然違う名前への大きな変更とかはできないそう。(そりゃそうか)申請したカスタムシンガーはコピーされて、コピーされた方が公開されるので、スロット内のカスタムシンガーを再トレーニングしても公開したカスタムシンガーには反映されない。
カスタムシンガーの制作者がサブスク解約をしても、公開したシンガーに影響はなく、他のユーザーは変わらず使い続けられる。
※アカウントを削除したらカスタムシンガーも消える。(公開停止と同じ扱いになるっぽい)公開されたカスタムシンガーは他のユーザーが商業非商用問わず帰属表示なしで使えるようになる。
公開したシンガーは公開を停止できるが、停止後180日間はそのシンガーを「お気に入り」登録していたユーザーは使用できる。ただ、コミュニティからは即座に消えるらしい。
無限のコラボ席が手に入るのは嬉しいけど利用規約がカスタムできないっぽいので一長一短ですね~。UTAUの文化圏の人なら暗黙の了解としてやってくれた配慮(わかりやすいのだと音源名表記とかね)を当然してもらえるとは限らないので。
UTAU配布の感覚で音源を使う時は音源名を書いてねとか、他キャラへの声当て禁止とかを規約に書いている人もいるでしょうから、そこらへんの扱いがどうなるかとかもちゃんと公式の情報を読んで納得してから公開しましょうね……!
⑥その他、感想など
ということで完成しました! やった~~~!
思い立ってから半日も経たずに作れちゃいました。嬉しい……
こんなに早く作れるんだ……! 嬉しい……
実は以前、自分の声と仲間の声を使って一緒にRVCで遊んだことがあるのですが、その時の感想がこれなんです。
いや~~、夢、叶っちゃったな~~~!!?!?!?!!
カスタムシンガーを作ってから内心大浮かれです。
まるで初めてUTAU音源を作ったときのよう! まるで外付けの翼を手に入れたかのよう。
でも、ここがゴールではありません。まだまだやりたいことがあるので引き続きUTAU音源もたくさん作っていきたいです。
↑これは音声合成のオタクではない人間に読まれる前提で書いたので説明が多い文章
中の人とカスタムシンガーの歌声比較
恐らくこの記事を読んでいる人はカスタムシンガーを作りたい人だと思うので、ご参考までに中の人とカスタムシンガーの比較動画を置いておきます。
中の人が歌った原音の音声
(ピッチより歌い方を重視して音が外れまくっています)カスタムシンガーがベタ打ちで歌った音声(発音は修正しています)
中の人が歌った音声をACE Studioの機能でノートに変換してカスタムシンガーが歌った音声(修正なし)
カスタムシンガー、やっぱり歌がうま~~~~~~い!!!!!!!
ベタ打ちでもすごく良い感じですが、ビブラートを追加したりピッチを書いたり声の息成分を調整したりと調声も結構細かくできるので楽しいです。
⑦とても参考になったサイト/ページ
作りながらちらちらと見ていたサイトをご紹介します。
👇こちらです。
「緋惺 Official Site」様
特にこのシリーズのStep6の記事が「ACE Studio」カスタマイズAIシンガーの作り方というタイトルで、中身は今この文章を読んでいる皆さんが知りたい情報の塊だと思うのでオススメしておきます。
スクショ付きで解説してくださっているので、わかりやすく詰みにくい……!! ありがたすぎる。本当にありがとうございます……!
ちなみにStep0はACE Studioのダウンロード&インストールについての解説なので、まだACE StudioをPCに入れていない方はStep0を見れば良いと思います。
ACEで歌わせていると入力した音素と違う音素で発音されてしまう時がありますが、そういう時にどうすれば発音を直せるかなどの大変ありがたい情報もStep4に載っています!! ありがたい~~~~!!!!!!
ACE Studio公式の「Custom Voice Guide」
読もう、公式のガイド!
全文英語ですが翻訳すれば読めます。割とわかりやすいです!
同一人物の声でも複数の歌い方があるなら別音源にした方が良い感じになるよ~みたいなPro-tipsも書いてあります。
水音ラルさんのACE音源も1キャラで複数アペンドがありますよね。あんな感じです! ここらへんはUTAUのアペンドと同じ感覚。
ustをACE Studioで使うには
書き忘れたことを思い出したのでここに書いておきます。
こちらのサイトでustをufdataに変換すれば読み込めるようになります!
⑧終わりに
ここまでお読みいただきありがとうございました!
書いていたら夏休みの自由研究みたいな長さになってしまいました。
この記事が少しでもみなさまのお役に立てば幸いです。
もしよくわからない箇所がございましたらお気軽にTwitterまでご連絡ください。
この記事は半日でガッと勢いのまま書き上げたので、後日修正するかもしれません。誤字とかあったら脳内で補完して読んでください。
更新履歴
2024年8月30日 公開&追記
2024年8月31日 追記
2024年9月 1日 追記
2024年9月 25日 追記