【実録】限界学生が女の子になってみた
当記事は、「FUN Advent Calendar 2022 part2」の23日目の記事です。
先日の記事は、なのすけさんで「好きな食べ物定型分」でした。
僕も味噌汁好きなので、友達になりましょう。
また、part1 、part3もあるのでそちらも是非ご覧ください。
(めっちゃ多いね)
はじめましての方ははじめまして。
はじめましてじゃない方はいえ~~~い!!!
1年の「あ」と申します。音を扱ってます。
別に「あ」って呼ばれたいわけでもないのでお好きなように呼んでください。
とりあえず簡単に自己紹介を…
さて、みなさんは夢ってありますか?
世界征服とか億万長者になるとか不労所得で食っていくとか色々あると思います。
その中でも、みなさん含め世界の老若男女が一度は思ったことがあるであろう夢がありますよね。
そう、
近年のVTuberブームと同様、バ美肉おじさんとかVRChatとか流行ってますし、社会的に「女の子になりたい」と思っている人がたくさんいることは自明です。
ある調査では、女性を好きになる要素で一番重要なのは声であるというデータが出ています。
女の子になるためにはやはり声が重要そうですね、、、
声を女の子にするためにはボイスチェンジャーが必要になりますね。
ボイチェンって高そうな機材とか必要なんでしょ?こういうのとか。
いやフリーのソフトウェアとかもあるよ、恋声とか。
まじか!!じゃあボイチェンしてバ美肉しよ~~っと!!
𝓗𝓪𝓹𝓹𝔂 𝓔𝓷𝓭…
うふふ♡
で、終わっちゃアドカレの内容としては面白くないですよね。
ボイスチェンジャーといえども、かかりが悪くてボイチェン感がマシマシの声になってしまうものだったり、そこそこ綺麗にかかってもその分遅延が大きいものがあったりします。
美少女のガワを被ってるだけで声が「THE ボイチェン」みたいなVTuberとか見ると少し悲しい気持ちになりません?
(ガワ被ってるだけで声まんま男とかのVTuberとかもケッコーいるけどそっちの方がマシだと思ってる)
自分は紛いなりにも音を扱い、研究している者です。
音声データを扱えば右に出るものはたくさんいらっしゃいますが、アマチュアSE(Sound Engineer)として低遅延で綺麗にかかるボイスチェンジャーを作ってみたいと思います。
とはいっても、一からソフトウェアやVST開発するほどの元気と時間と技術力はないので、今回は僕が普段DTMで使用しているプラグインを用いてボイスチェンジャーを自作しようと思います。
ということで、バーチャル美少女受肉お兄さん(22)になるよ~~
(これだけ言ってるけど当の本人はバ美肉おじさん見ないし、なんならVTuberもそんな見るわけじゃない)
真面目な自己紹介
M1の「あ」と申します。音楽の研究したり作ったり分析したりしてます。
ゲームのBGMやSE作ったり、サークルでアルバム出したり、直近では生協の楽曲公募で大賞頂いたりしました。
(ちなみに僕は3曲出してます)
作編曲やMA等のお仕事依頼募集してるのでぜひぜひDMまで(宣伝)
女声の特徴
まず、女の子になるためには女声の特徴を掴まなければ話は始まりません。
ということで、高校同期や卒業した大学同期の友人何人かに「女性と男性の声の違い」についてアンケートを取ってみました。
(協力してくれた𝓜𝔂 𝓕𝓻𝓲𝓮𝓷𝓭𝓼 に 𝘽𝙄𝙂 𝙆𝘼𝙉𝙎𝙔𝘼…)
アンケートの結果として多かったのは以下のような回答でした。
やはり声の高さという回答が一番多かったです。
波長は実質周波数なので音高と同義ですね。
この辺は倍音とフォルマントというものが関係してきます。
それぞれの説明は後述します。
※その他回答抜粋
声のデケェ女性の方もいらっしゃるかと思われます。
高くなったり????
怒られるぞ。
そうだね。
マジで何????????
回答する場所間違えてない??
そういうとこやぞ。
僕の同期変な奴らばっか。
ピッチ(音高)
その名の通り音の高さのこと。
女声は男声より高い。
櫻庭ら(2009)の研究によると、女声の母音発音における基音の範囲は171~286Hzで平均は243Hz、朗読時の基音の範囲は155~254Hzで平均は217Hzであった。[1]
倍音
倍音の組み合わせで音色が決まります。
これは声でも同様です。
フォルマント周波数
倍音成分が共鳴し合って特に強まった周波数成分がフォルマントです。
フォルマント周波数は声のピッチに関わらずある程度一定の値を取り、母音ごと、男性女性ごとに違う値を取ります。
通常、女性の方が男性よりフォルマント周波数は高い傾向があります。
音声認識とかもこれを応用してたはず。
使用する機材
今回はkilohearts社のエフェクタープラグインと「Snap Heap」のみを使用してボイスチェンジャーを実装していこうと思います。
Snap Heap
Snap Heapはkiloheartsのエフェクターを自由にモジュレートできる便利プラグインです。並列処理とかもできて最高。
そして、kiloheartsのエフェクター30種以上はなんと無料で手に入ります!!
※Snap Heapは$29
kiloheartsの回し者でもなんでもありませんが超おすすめです。
ハード周りの環境は以下の通り
VST Pluginを使用するのでDAWを経由していますが、OBSもVST使えたはずなので一応誰でもできるはず?(動作は保証しません)
ボイチェンしてくぞ~
地声
皆様に気持ち悪い陰キャの声をお聞かせするのは大変申し訳ないので、スペクトラムアナライザのGIFだけ貼っておきます。知り合いは僕の声想像してください。
僕の声は基音がおよそ110Hzでした。
僕以外の人のスペクトラム
基音がおよそ200Hz、男性にしては高め
基音が120Hzくらい、平均的
マイク等各々の録音環境が違うから一概には言えないけど、僕の声は倍音成分があんま足りてなさそう。
これをだいたい240Hzまで上げれればいいわけです。
では、ピッチを上げてみましょう。
うん、、、、、、
ってこれ、、、、、、
被害者のインタビュー???
- 𝙠𝙪𝙨𝙤 𝙉𝙀𝙒𝙎 -
地声の調整
エフェクターでピッチを上げすぎると上記のようになってしまうことがわかりました。(それはそう)
ここでピッチシフト量をできるだけ抑えるためにも、入力する音声自体をできるだけ高くしたいわけです。
そこで登場するのがミックスボイスです。歌とか歌われるのが好きな方々は耳にしたことがある言葉ではないでしょうか。
これを出せるように練習すれば、ボイチェンのかかりもマシにはなりそうですね。
僕はカラオケで女性ボーカル曲やボカロ曲を原キーで歌いまくってトレーニングしてました。
今の時代、ググればいい練習法の記事とかありそうなので、そういうの参考にするといいかも。
皆様に気持ち悪い陰キャのミックスボイスをお聞かせするのは大変申し訳ないので、スペクトラムアナライザのGIFだけ貼っておきます。
基音がおよそ250Hzまで盛れました。
下処理
さて、ここから本格的にボイチェンを行っていきたいと思います。
まずここでは、主に環境音やノイズを低減させていきます。
当然ですが、ノイズが入っている音声にボイチェンを掛けると、ノイズにもボイチェンが掛かってしまいます。
ピッチの上がった環境音等が入っているとかなり違和感が生まれてしまうので、ボイチェンのエフェクトはできる限り声のみに掛かるよう処理していきます。
Filter
無駄な低域のノイズを消すために約80Hz以下をハイパスフィルタでカットします。
Gate
無音時に乗ってしまう環境音等を除去するためにGateを使います。閾値は各々の入力のレベルに合わせて要調整。
Transient
耳につく摩擦音や破裂音を低減させるためにアタックを少々下げています。
また、余計な余韻を削るためにサステインも下げています。
EQ(イコライザ)
ピッチシフトを掛けた時にケロる原因となる帯域等をEQでカットしていきます。おおよそ4kHz辺りを削ると体感マシにはなりますが、細かい調整は必要。
ケロる帯域が割と明瞭感に繋がる帯域な気がするので本当に緻密な調整が必要そう。僕もまだ全然わかってない
ピッチシフト
下処理も終わったので、いよいよピッチを上げていきます。上げれば上げるほどボイチェン感が出てしまうので、+2~3くらいに留めておいた方がよさそう。僕は大体+1.8~2.5辺りで調節しています。
フォルマント調整
正直よくわかんない!!!!!トライアンドエラーって感じ。
説明見た感じ、内部処理的には第1第2フォルマントをブーストしてるだけっぽい?
kiloheartsのFormant Filter の説明に
と、あるので微妙にLFOで揺らしてます。
その他微調整
Chorusで位相をごまかしたり、削った分の高域を少し盛るために軽く歪ませつつEQで調整したりしてます。
あとはコンプで少し叩いてるくらい。
空間系
DelayとReverbを薄~~~~~く掛けて声を馴染ませます。ここはお好みで。
最後に少々味付け調整して出来上がったのがこちらです。
結果
さて、被害者の声はどのくらいマシになったのでしょうか。
いいんじゃないですか!!!!!!!?????????
高域に若干デジタル臭さが残っちゃっていますが、女の子になってる!!
今回は母音発話でのパラメータ調整を行いましたが、会話文だとどうでしょうか。
話すとやっぱりボイチェン感が滲みでちゃいますね。
更なるパラメータの調整とボイトレが必要そうです。
今後の展望(かなり雑)
録音環境の強化
良いマイクと良いA/Iを買いましょう。
他プラグインの使用
フォルマントシフト系の機能付いたプラグインあると多分嬉しい。
地声の強化
これを参考にしよう。
おわりに
いかがだったでしょうか!←で〆る記事、中身ない率高いよね
当たり前ですがボイチェンって入力音声の質で大きく左右されてしまうので、どうしても向かない声の人っていると思います。
僕の声を聴いたことがある人ならわかると思いますが、僕はボイチェン向きじゃない側の人間だと思います。(基音110Hzとかだし)
そんな声でもこれくらいのクオリティならなれるよ~ってことで、みなさんの「女の子になりたい」という夢への希望を与えることができたのであれば幸いです。
それでは次回、「あ、バーチャルの肉体を得る編」か「あ、女装する編」でお会いしましょう。嘘です。ありません。
明日はこたくんで「僕というモンスターがどのような経緯で生まれたのか、その軌跡を書き記そうかと。」です。
モンスターって魔剤のこと??
参考文献
本当はもっと色々論文漁りたかったけど時間がなかった;;
おまけ
この記事が気に入ったらサポートをしてみませんか?