見出し画像

VOCALO CHANGERでボイスチェンジャーに取り組んだ話

ヤマハ株式会社によるVOCALO CHANGERがリリースされたことを知った。有料製品ではあるが、体験版もあるのでボイスチェンジャーとして上手に変換できるかプラグインを試した。


結論

結論からいえば、条件付きで変換が期待できるという感想を抱いたのが正直なところだ。これは、基本的には変換前のボーカル依存するということだ。正確な発声、発音、ピッチ、音圧、音量、リズム、環境などがクリアされた上で上手に変換できるものと思われる。

違和感(矛盾)の主張と、期待したいこと、新たな結論(感想)

一方で、正直、ボーカリストとして上記の要素がクリアできるほどの品質で録音できる(歌える)のであれば、そのまま音源として使えばいいのでは?そもそも変換する必要はあるのか?というある種、自分的にはロジックの矛盾を感じることとなった。

もちろん、自分の力量によるものだということは重々承知しているが、しかし、前提として日本でボーカルの録音を素直にできる環境を持ち合わせている人々はどのくらいいるのだろうか?スタジオやカラオケのように声を出せる環境を持っている消費者(一般大衆)は多くはないだろう。従って、自分のニーズとしては、録音環境に期待できない、大きな声は出せない、そこまで上手に歌えない状況で合っても、ある程度、いい感じに変換できるツールを期待していたのが正直なところだ。そういった状況化の問題を解決できることが、真の潜在的なニーズとして求められているのではないだろうか。そういった意味では解決できにくいツールというのが残念である

自分の考え方がマイノリティなのかもしれないが、ボイスチェンジャーは自分の声に自信のない人々が使いたいという考え方を持っていたため、野郎が可愛いキャラクターの声になれるとなったらドリームはあるよね

今のところ、解決案が見つからない限りは価格が高いなぁという印象である

他のプロダクトと比較する

基本的には主観であることを注意してほしい

Voidol

自分が使用していたのはVoidolの初代(?)であり、喋ることと比較するのはイマイチな話かもしれないが、変換精度は明らかにVOCALO CHANGERの方がよかった。バージョン3になって変化が期待できるかもしれないが、Youtubeのデモを見ている限りは、リアルタイムの変換はあまり進歩が感じられず好印象を持つことができない。これはユーザーの声を機械学習させていないことによる難しさはあると思っている。なお、プラグインとしては試したことがないため、品質のよい録音データでは試していないことも断っておく

RVC

きっと、元データによって上手に変換できるパターンがあると思われる。こちらも自分の声を機械学習させたわけではない、発音も認識できないことがある。なお、自分の声で変換させてみたときは、VOCALO CHANGERの方が同様に自分の声は学習していないのに認識精度が高い印象がある。RVCも喋る方にフォーカスが向いているのかもしれないが、VOCALO CHANGERはプラグインとして処理できるのはすごい。

ボイスチェンジがうまくいかないときに対する代替案

所謂、midi入力によるボーカロイド、Synthesizer Vや、NEUTRINOで行うことが代替案だろう。midi入力、文字情報を基に発音するのでよい録音を作れないことによる変換が上手くいかない問題が解消できる。しかし、何より入力が手間である、歌って変換した方が早いという問題は解決できないままだ

フォローはできないか

今のままでは自分の場合は実用的には使えない問題がある、だいたい、企業の広告なんて一般ユーザーのことを考えていないハイクオリティな環境下でしているのだろう。結果、前提(環境等)を満たせず使って残念、使いこなせないなんてことはよくある。もちろん、よく見せたい気持ちはよく分かる。一方で一般ユーザーの状況に立ってどうなのかは知りたいから調べているのだ。何かそういう動画が出てくるといいなぁという感想だ。しかし、逆によく聴こえないからイマイチじゃんという発想もあるかもしれない。前提によってはよく聴こえるパターンもある。何とも立場を変えればジレンマだ。

とはいえ、今は消費者の立場なので文句を垂れていても解決はしないので、出来る限り改善できないか検討をしていく

検証

要は無理して大きな声で歌わなくてもいい感じで変換できる状況にもっていく。ここでは入力音源としてスコアメーカZEROも活用していく

スコアメーカZEROの最新版、無料エディター(継続者は問題ないが、新規は要アカウント登録が必要)に変更して使ってみたのだが、そういえば、譜面に歌詞と歌わせる機能があったことを思い出した。超優秀、今回の件、試すには最高じゃないかということでツールの力を借りる。これをmp3やxml(必要に応じてNEUTRINO等の別ライブラリに歌わせるため)にエクスポートする。なお、本来は譜面作成ソフトの認識だ。でも、ツールは目的に合ったときに最高に効果を発揮するなと感じた。

歌詞と発音が出来る

入力の音量の問題、発音の問題を切り分ける

結果は発音で苦手はなかった、-11db付近では変換することが出来た

① 入力音が-19dbに対して、Vocalo Changerが11dbの出力で変換は出来た。ただし、長時間聴くには耳が痛いレベルである。自分の声は-9dbあったためか、音が潰れた印象はあったので、自分の検証では-19dbが入力としては限度であると感じる

-19.8dbの入力音
-19.8dbの入力音に対する変換音

② 入力音が-31dbに対して、出力が-15dbいくという謎事象は起こっているが、こちらも少しモニョる気はするが聞き取ることは出来た。このあたりからちょうど良いか?

-31.8dbの入力音
-31.8dbの入力音に対する変換音

③ 入力音が-39.8dbに対して、出力が-21dbで発音する音量のバランスが乱れてきた。元データに影響があるかもしれないが、以下、省略していくがここから下げていくと、音のバランスの悪さがより目立ち始める。完璧な入力であれば問題ないのかもしれないがあり得るのだろうか

-39.8dbに対する入力音
-39.8dbの入力音に対する変換音

ピッチの修正

こちらは、自分で歌い直してピッチを修正して解決する。melodyneを使えば部分的にピッチを修正できるのかもしれないが、所有していないので分からない。Logic Proはオーディオトラックに対してピッチを変更する方法Flex Pitchを使った修正があるようだ。また、本機能は試してはいないが、もし、入力がピッチだけの問題であれば修正の手間は楽かもしれないので必要に応じて試す

ホワイトノイズ(コンデンサーマイクの影響?)

使用しているのはコンデンサーマイクのためか、部屋のエアコンの音などのホワイトノイズを、自分の耳に聴こえるレベルは普通に、Vocalo Changerも拾うので悩ましい。入力のdbを抑えて後でLimiterを掛けるか、ノイズゲートでノイズをブロックするのがいいか、自然なのは前者であるのだがノイズに負けないように大きな声で歌うのは前提と異なるので厳しい(口ずさむ程度の音量で変換できると良い)ホワイトノイズを拾えば余計な変換をする

今より、大きな声では歌えないか(ホワイトノイズ対策も)

マジで最終手段だったが、ダイナミックマイクとマイクカバーを用意した。ダイナミックマイクであれば単一指向性であるので、ホワイトノイズはコンデンサーマイクよりは軽減できるだろうと判断した。結果的にはホワイトノイズを圧倒的に拾わず、マイクカバーも良かったのか余計な雑音は拾わなくなった。口をマイクカバーにピッタリ付けると呼吸しにくく苦しいので少し離すと楽になる。ただし、音が籠るせいなのか、発音が認識されにくいと感じた。恐らく録音の環境にもよるのだろうが、自分の部屋の場合はダイナミックマイクの方が合っていそうだ。録音の入力段階でノイズを大幅に拾わなくなったが変換が聴き取りづらい

EQを試してみる

サポートにも問い合わせながら実験をしていたのだが、自分の場合はEQで完全とは言えないが大幅に改善した。EQで音がハッキリして認識しやすくなるのか変換の精度が上がった印象を受けた。

EQの設定(残念ながらEQはよく分かっていないので、いじっていく内に音質が明らかに変わる点で止めた)

成果

ということで完成物はこちら。まだまだ発音の問題もあるとは思うが、男性→女性の声の変換としては面白い結果となったのではないだろうか。興味深かったのは録音内容によっては、実は変換後の声質にも影響を与えているのではないかと感じたことだ。再生するときは音量デカイので注意

お題は、けいおん!の天使にふれたよ!という曲、今みたら10年以上前の作品だということに驚愕している

意外に勉強になったこと

ボーカルの録音について試行錯誤する機会になったこと、ダイナミックマイクとコンデンサーマイクでホワイトノイズに差が出ることが収穫だった。また、Webで調べるとボーカルは-6DBを超えないようにと記載していたサイトも見つけたので従ってみたら自然に録音できた気がする。機会があれば騒音測定器でどれくらいマイクカバーでDBが下がっているか計測して補足したいと思う

課題

ボーカル(録音)の精度は言わずもがなという感じ、録音の元データ次第といった感じだ。また、EQを掛けると特定の周波数を強調するためかホワイトノイズを拾いやすくなる、後掛けでノイズゲートという手もあるが、出来るだけ自然な形には仕上げる方法を検討したい

ヘッドフォンの音を聴きながらだと、かなり音量を絞ってもマイクから音を若干、拾っている感があった。イヤホンでも同じかもしれないが試してみる。今回はアカペラで歌って対応した。しかし、今後、伴奏と合わせるには困るので別問題として対応方法を考える。なお、RVCとは同条件の録音でどうなるか改めて確認してみる

まとめ

上記の問題が解決してくれば、オケだけ用意してカラオケして変換も出来る、変換前は純粋に録音もできるし、結構、遊べると思う。Vocalo Changerも欲しい音源が追加されたら購入を検討したい

後書き

録音していて思ったのは、声優の凄さを改めて感じたことだ。もちろん、ボーカリストも凄いと思っているんだけど、自分の発音が変換でうまくいかなさすぎたこともあり、楽曲を聴いているとこんなにも発音キレイで聴き取りやすく声質もいいのかと感動した。本当、声を鍛えているプロはマジでやばく、それだけで価値があり貴重だなと感じた。自分でやってみると分かる声優の凄さを実感した体験だった

おわり!

この記事が参加している募集

AIとやってみた