【実録】限界学生が女の子になってみた

あ

2022年12月23日 01:16

当記事は、「FUN Advent Calendar 2022 part2」の23日目の記事です。

先日の記事は、なのすけさんで「好きな食べ物定型分」でした。
僕も味噌汁好きなので、友達になりましょう。

また、part1 、part3もあるのでそちらも是非ご覧ください。

（めっちゃ多いね）

はじめましての方ははじめまして。
はじめましてじゃない方はいえ～～～い！！！
1年の「あ」と申します。音を扱ってます。

別に「あ」って呼ばれたいわけでもないのでお好きなように呼んでください。

とりあえず簡単に自己紹介を…

さて、みなさんは夢ってありますか？

世界征服とか億万長者になるとか不労所得で食っていくとか色々あると思います。

その中でも、みなさん含め世界の老若男女が一度は思ったことがあるであろう夢がありますよね。

そう、

近年のVTuberブームと同様、バ美肉おじさんとかVRChatとか流行ってますし、社会的に「女の子になりたい」と思っている人がたくさんいることは自明です。

バ美肉（バびにく）とは、バーチャル美少女受肉（バーチャルびしょうじょじゅにく）またはバーチャル美少女セルフ受肉（バーチャルびしょうじょセルフじゅにく）の略語。美少女のアバターを纏うこと、あるいは、纏ったうえでサイバースペース（バーチャル空間）の美少女として、VRChat等のサイバースペースで活動したり、バーチャルYouTuber、バーチャルアイドルなどとして活動することを指す。ボイスチェンジャーを使うか自身の発声方法を工夫するなどして発声を美少女に変えるか、または地声のままで、美少女の3Dモデル・イラスト等を使い、バーチャルな美少女になること。この場合の「受肉」は「肉体（アバター）を手に入れる」という意味合いであり、キリスト教における教理の「受肉」とは別義である。

フリー百科事典『ウィキペディア（Wikipedia）』

ある調査では、女性を好きになる要素で一番重要なのは声であるというデータが出ています。

女の子になるためにはやはり声が重要そうですね、、、

声を女の子にするためにはボイスチェンジャーが必要になりますね。

ボイチェンって高そうな機材とか必要なんでしょ？こういうのとか。

いやフリーのソフトウェアとかもあるよ、恋声とか。

まじか！！じゃあボイチェンしてバ美肉しよ～～っと！！

𝓗𝓪𝓹𝓹𝔂 𝓔𝓷𝓭…

うふふ♡

で、終わっちゃアドカレの内容としては面白くないですよね。

ボイスチェンジャーといえども、かかりが悪くてボイチェン感がマシマシの声になってしまうものだったり、そこそこ綺麗にかかってもその分遅延が大きいものがあったりします。

美少女のガワを被ってるだけで声が「THE ボイチェン」みたいなVTuberとか見ると少し悲しい気持ちになりません？
（ガワ被ってるだけで声まんま男とかのVTuberとかもケッコーいるけどそっちの方がマシだと思ってる）

自分は紛いなりにも音を扱い、研究している者です。
音声データを扱えば右に出るものはたくさんいらっしゃいますが、アマチュアSE（Sound Engineer）として低遅延で綺麗にかかるボイスチェンジャーを作ってみたいと思います。

とはいっても、一からソフトウェアやVST開発するほどの元気と時間と技術力はないので、今回は僕が普段DTMで使用しているプラグインを用いてボイスチェンジャーを自作しようと思います。

ということで、バーチャル美少女受肉お兄さん(22)になるよ～～

~~（これだけ言ってるけど当の本人はバ美肉おじさん見ないし、なんならVTuberもそんな見るわけじゃない）~~

真面目な自己紹介

M1の「あ」と申します。音楽の研究したり作ったり分析したりしてます。
ゲームのBGMやSE作ったり、サークルでアルバム出したり、直近では生協の楽曲公募で大賞頂いたりしました。

（ちなみに僕は3曲出してます）

作編曲やMA等のお仕事依頼募集してるのでぜひぜひDMまで（宣伝）

女声の特徴

まず、女の子になるためには女声の特徴を掴まなければ話は始まりません。

ということで、高校同期や卒業した大学同期の友人何人かに「女性と男性の声の違い」についてアンケートを取ってみました。
（協力してくれた𝓜𝔂 𝓕𝓻𝓲𝓮𝓷𝓭𝓼 に 𝘽𝙄𝙂 𝙆𝘼𝙉𝙎𝙔𝘼…）

アンケートの結果として多かったのは以下のような回答でした。

・声の高さ
・音域
・声質
・声の太さ
・声帯の大きさ
・波長

やはり声の高さという回答が一番多かったです。
波長は実質周波数なので音高と同義ですね。

・声の響きやすさ
・声の通りやすさ
・聞こえやすさ

この辺は倍音とフォルマントというものが関係してきます。
それぞれの説明は後述します。

※その他回答抜粋

・声のデカさ（男の方がデカい）

声のデケェ女性の方もいらっしゃるかと思われます。

・声変わり後に低くなったり高くなったり

高くなったり？？？？

・ウザさ(感覚的に女子のがウザイ人多い)

怒られるぞ。

・小梅太夫はソプラノ

そうだね。

・🦠

マジで何？？？？？？？？

・アロハ〜〜↑↑ こんちゃっ！
　俺は樹齢1222年の島人！！
　好きな食べ物は蒸した海藻！
　今日もIQ2でふんばってくぞ〜〜〜

回答する場所間違えてない？？

・抜けるかどうか

そういうとこやぞ。

~~僕の同期変な奴らばっか。~~

ピッチ（音高）

その名の通り音の高さのこと。
女声は男声より高い。

櫻庭ら（2009）の研究によると、女声の母音発音における基音の範囲は171～286Hzで平均は243Hz、朗読時の基音の範囲は155～254Hzで平均は217Hzであった。[1]

倍音

倍音とは、楽音の音高とされる周波数に対し、2以上の整数倍の周波数を持つ音の成分。1倍の音、すなわち楽音の音高とされる成分を基音と呼ぶ。
弦楽器や管楽器などの音を正弦波（サインウェーブ）成分の集合に分解すると、元の音と同じ高さの波の他に、その倍音が多数（理論的には無限個）現れる。

フリー百科事典『ウィキペディア（Wikipedia）』

倍音の組み合わせで音色が決まります。
これは声でも同様です。

フォルマント周波数

フォルマント（英: formant、ホルマント）、または形成音（けいせいおん）は音声の周波数スペクトルに現れる、周囲よりも強度が大きい周波数帯域である。

フリー百科事典『ウィキペディア（Wikipedia）』

倍音成分が共鳴し合って特に強まった周波数成分がフォルマントです。

フォルマント周波数は声のピッチに関わらずある程度一定の値を取り、母音ごと、男性女性ごとに違う値を取ります。
通常、女性の方が男性よりフォルマント周波数は高い傾向があります。

音声認識とかもこれを応用してたはず。

使用する機材

今回はkilohearts社のエフェクタープラグインと「Snap Heap」のみを使用してボイスチェンジャーを実装していこうと思います。

Snap Heap

Snap Heap is a modular Snapin Host which allows you to build up to seven serial or parallel effects chains and modulate every parameter using Kilohearts' powerful modular modulation system.

Snap Heapはkiloheartsのエフェクターを自由にモジュレートできる便利プラグインです。並列処理とかもできて最高。

そして、kiloheartsのエフェクター30種以上はなんと無料で手に入ります！！
※Snap Heapは＄29

kiloheartsの回し者でもなんでもありませんが超おすすめです。

ハード周りの環境は以下の通り

DAW：Cubase10
A/I：MOTU M4
MIC：MPM-1000

VST Pluginを使用するのでDAWを経由していますが、OBSもVST使えたはずなので一応誰でもできるはず？（動作は保証しません）

ボイチェンしてくぞ～

地声

皆様に気持ち悪い陰キャの声をお聞かせするのは大変申し訳ないので、スペクトラムアナライザのGIFだけ貼っておきます。知り合いは僕の声想像してください。

僕の声は基音がおよそ110Hzでした。

僕以外の人のスペクトラム

基音がおよそ200Hz、男性にしては高め

基音が120Hzくらい、平均的

マイク等各々の録音環境が違うから一概には言えないけど、僕の声は倍音成分があんま足りてなさそう。

これをだいたい240Hzまで上げれればいいわけです。

では、ピッチを上げてみましょう。

うん、、、、、、

ってこれ、、、、、、

被害者のインタビュー？？？

- 𝙠𝙪𝙨𝙤 𝙉𝙀𝙒𝙎 -

地声の調整

エフェクターでピッチを上げすぎると上記のようになってしまうことがわかりました。（それはそう）
ここでピッチシフト量をできるだけ抑えるためにも、入力する音声自体をできるだけ高くしたいわけです。

そこで登場するのがミックスボイスです。歌とか歌われるのが好きな方々は耳にしたことがある言葉ではないでしょうか。

ミックスボイスとは、地声（チェストボイス）と裏声（ファルセット）が混ざったような中間の声のことをいいます。「ミドルボイス」ということもあります。

ミックスボイスとは？簡単にできる練習方法｜ボーカル・ボイストレーニングの知識より引用

これを出せるように練習すれば、ボイチェンのかかりもマシにはなりそうですね。

僕はカラオケで女性ボーカル曲やボカロ曲を原キーで歌いまくってトレーニングしてました。
今の時代、ググればいい練習法の記事とかありそうなので、そういうの参考にするといいかも。

皆様に気持ち悪い陰キャのミックスボイスをお聞かせするのは大変申し訳ないので、スペクトラムアナライザのGIFだけ貼っておきます。

基音がおよそ250Hzまで盛れました。

下処理

さて、ここから本格的にボイチェンを行っていきたいと思います。
まずここでは、主に環境音やノイズを低減させていきます。

当然ですが、ノイズが入っている音声にボイチェンを掛けると、ノイズにもボイチェンが掛かってしまいます。
ピッチの上がった環境音等が入っているとかなり違和感が生まれてしまうので、ボイチェンのエフェクトはできる限り声のみに掛かるよう処理していきます。

Filter

無駄な低域のノイズを消すために約80Hz以下をハイパスフィルタでカットします。

Filter：シンセサイザーやイコライザーなどで使用される音域コントロールのこと。ある音域を削ることで音色を作ることが目的。
ローパスフィルター（LP）
バンドパスフィルター（BP）
ハイパスフィルター（HP）など様々なフィルター種類がある。

sleepfreaks「DTM用語集」より引用

Gate

無音時に乗ってしまう環境音等を除去するためにGateを使います。閾値は各々の入力のレベルに合わせて要調整。

Gate：ノイズやマイクの被りなどをカットするためのエフェクト機能のこと。ある一定の基準音量を下回る音をカットする。

sleepfreaks「DTM用語集」より引用

Transient

耳につく摩擦音や破裂音を低減させるためにアタックを少々下げています。
また、余計な余韻を削るためにサステインも下げています。

Transient：エフェクトの種類のことで、サウンドの「アタック」「リリース（余韻）」部分を個別に調整することができる。

sleepfreaks「DTM用語集」より引用

EQ（イコライザ）

ピッチシフトを掛けた時にケロる原因となる帯域等をEQでカットしていきます。おおよそ4kHz辺りを削ると体感マシにはなりますが、細かい調整は必要。

EQ：トラックの周波数を変更、整えて音作りを行うエフェクターのこと。

sleepfreaks「DTM用語集」より引用

ケロる帯域が割と明瞭感に繋がる帯域な気がするので本当に緻密な調整が必要そう。~~僕もまだ全然わかってない~~

ピッチシフト

下処理も終わったので、いよいよピッチを上げていきます。上げれば上げるほどボイチェン感が出てしまうので、+2～3くらいに留めておいた方がよさそう。僕は大体+1.8~2.5辺りで調節しています。

フォルマント調整

正直よくわかんない！！！！！トライアンドエラーって感じ。

説明見た感じ、内部処理的には第1第2フォルマントをブーストしてるだけっぽい？

kiloheartsのFormant Filter の説明に

Applying a LFO modulation to either axis of the pane can give some nice human-esque qualities to your sound.
（訳：LFOモジュレーション適用するとええ感じに人間らしい音になるで）

と、あるので微妙にLFOで揺らしてます。

その他微調整

Chorusで位相をごまかしたり、削った分の高域を少し盛るために軽く歪ませつつEQで調整したりしてます。
あとはコンプで少し叩いてるくらい。

空間系

DelayとReverbを薄～～～～～く掛けて声を馴染ませます。ここはお好みで。

Delay：空間を表現するエフェクターで元音と音を遅らせたものをMIXすることで、ヤマビコ効果を作る。
Reverb：音に残響を加え、空間を表現するエフェクターのこと。

sleepfreaks「DTM用語集」より引用

最後に少々味付け調整して出来上がったのがこちらです。

結果

さて、被害者の声はどのくらいマシになったのでしょうか。

いいんじゃないですか！！！！！！！？？？？？？？？？

高域に若干デジタル臭さが残っちゃっていますが、女の子になってる！！

今回は母音発話でのパラメータ調整を行いましたが、会話文だとどうでしょうか。

話すとやっぱりボイチェン感が滲みでちゃいますね。

更なるパラメータの調整とボイトレが必要そうです。

今後の展望（かなり雑）

録音環境の強化

良いマイクと良いA/Iを買いましょう。

他プラグインの使用

フォルマントシフト系の機能付いたプラグインあると多分嬉しい。

地声の強化

これを参考にしよう。

おわりに

いかがだったでしょうか！←で〆る記事、中身ない率高いよね

当たり前ですがボイチェンって入力音声の質で大きく左右されてしまうので、どうしても向かない声の人っていると思います。
僕の声を聴いたことがある人ならわかると思いますが、僕はボイチェン向きじゃない側の人間だと思います。（基音110Hzとかだし）

そんな声でもこれくらいのクオリティならなれるよ～ってことで、みなさんの「女の子になりたい」という夢への希望を与えることができたのであれば幸いです。

それでは次回、「あ、バーチャルの肉体を得る編」か「あ、女装する編」でお会いしましょう。嘘です。ありません。

明日はこたくんで「僕というモンスターがどのような経緯で生まれたのか、その軌跡を書き記そうかと。」です。
モンスターって魔剤のこと？？

参考文献

[1] 櫻庭京子, et al. "女性と判定される声の特徴—性同一性障害者の話声位—." 音声言語医学 50.1 (2009): 14-20.

本当はもっと色々論文漁りたかったけど時間がなかった；；

おまけ

この記事が気に入ったらサポートをしてみませんか？