バ美声を利用してHMDのマイクのみでボイチェンを完結させてみる。

 はい。フレンドからは、よく分からない電波を突然宇宙から受信する事から宇宙猫とか言われていますけれど、僕がメインで使っているアバターに猫系統は多分まだいません。

 去年の六月頃にVRChatを始めたのですが、色々と現実では言えないような深いお話に対する許容範囲や、ボイチェンを使っている人に対する周囲の受け入れ方に、ああ時代が変わり始めてるーとか感じてびっくりしています。

 実を言うと僕自身MtFです。物心付く前からずっと違和感はあったのですが言える相手も居なかったし、今はツナギを着て工具をコンコンしたりカンカンしたり時々バッコンバッコンするお仕事をしていて、その方針に幸せを感じてもいるので、リアルの在り方を特に変えるつもりはないです。

 ただしVRCっていう存在に割と感動をしているので、自分なりに培ってきたボイチェンのノウハウをnoteに纏めて広めてしまおうかなーと思ってます。

 つまりその、HMD本体のマイクを使い、ソフト上でピッチ変更とイコライザ調整を行って、フォルマウントの調整だけでは成しえなかった『ローカット+ケロケロ改善+ノイズ除去』を行う方法と、自然な声に聞こえるように調整する方法とかです。実践できたらすごいよね。便利だよね。


 まずは男声と女声の話声の音域から見ていきます。こちらを参照します。

https://www.jstage.jst.go.jp/article/jjlp/50/1/50_1_14/_pdf

 でも面倒臭いよっていう人はこっちでも良いと思います。とてもしっかりと纏められています。すごい。

https://gid-mtf-guide.net/2018/06/30/m-f-voice-different/


 結論から言えば、女声として認識される母音の音域は217hz~270hzと書いてあります。これは大体低い『ラ~ド#』(A3~C#4)くらいの音程になります。平均すると243hzで、これはA#3~B3くらいの間です。ラ#からシくらいの音に当たります。

 で、男性の場合はどうなるかというと、自分の場合は今、全く何もせずあーあ―喋ってみたら、その下の下のファくらいでした。87.307hzだそうです。地声低いなおい。

 こちらのサイトを参照しています。

https://tomari.org/main/java/oto.html


 大体1オクターブの違いって言われてますよね。何か。多分話声にしたら、自分も110hzの『ラ』くらいの音程で喋っていると思います。

 つまるところ、ピッチ調整で狙ってあげるのは243hzくらいです。これはバ美声のパラメータがパーセント表示になっているので、電卓でたたき出してあげれば楽に数値を出せるかと思います。

 普通に考えて女声を出したいという方は声を作るかと思うので、作った声の音程を測ってバ美声でピッチを調整すれば良い訳ですね! あのソフトは150%まで対応しているので、喉を傷めない範囲で音程を上げた後に補正してあげれば良いのかと思います。

 で、ですよ。でも女声って高いじゃないですか。常識的に考えて。1オクターブの違いって言われても、は? もっと高いわってなると思うんです。皆さん。

 いやいや、その感覚は合ってます。

 音って幾つかの要素があるんです。噪音、楽音、みたいな。

 音と言う概念を物理的振動でとらえると、振動の周期(音程)、振動の大きさ(音量)、振動の長さ(時間)っていう三要素しか存在しないんですよね。それだと音色ってなんぞやってなると思います。ここに答えがあったりします。つまりフォルマウントの事です。

 この音色というのは、含んでいる『倍音』という概念によって決められています。一つの周波数(純音)に共鳴して、同時に様々な音が鳴っている。これが倍音です。

 詳しくはWikiを読んで勉強してください。

https://ja.wikipedia.org/wiki/%E5%80%8D%E9%9F%B3


 難しい話過ぎる。そうですね。音って奥が深いんです。

 じゃあ結論を書けっていう話になっちゃうんですけど、
・男声と女声の自然な話声の差は1オクターブくらい。
・含んでいる音色、倍音の違いで高さが変わって聞こえる。

 ほぼほぼこんな感じです。

・地声で話せば1オクターブの違い
・同じ音程でも違う人の声として認識できるのは音色が違う(含まれている倍音が違う)から。


 ピッチは喉を傷めない範囲内でなんとか頑張った後にバ美声を使って補正を行います。倍音、つまりフォルマウントはバ美声を使用せず、サウンドカードのイコライザを使って補正してあげれば良い訳です。
 この考え方で行けば、だいたいこうなります。

分かりやすく。


 これ。ピッチを上げた後の地声を、自分なりにイコライザでフォルマウント調整してみました。110hzくらい(A2)が自分の平均的な地声での声域なので、121hzくらい(B2前後)で喋っている事になります。周りからはボイチェンを使用しているとバレませんでした。聞き比べたら確かに違ったそうです。

 ここを本気で突き詰めたいのであれば倍音の概念をwikiを読んでお勉強したり、上のリンクをしっかり読んでみて欲しいなあと思います。


 いやいやでも待って。そうやって聞きなれてないと、「あ、この人だ」っていう判別がつかないような、そういう声の変え方をしているのって理由があるんです。僕はMtFだけども、リアルで男として生きる事を心に固く誓ってしまったので、VRCでもボイチェンは使わないつもりだったんです。ただ少し事情があってVRCストーキングをされてしまいました。
 ボイチェンの使用をして違う人のふりをしています。ごめんなさい。

    イエーイ見てるー???

 そんな話はどうでもいい!

 とってもどうでも良い!知らない!

 で。要するに243hz付近をベースの母音として喋り、それよりも少し上の帯域の音を響かせたいわけですよね。低音部分は切り取ってしまって。
 イコライザー調整でいいじゃん(いいじゃん)

 自分はPC上でイコライザー調整をする為にこの製品を使っています。

https://www.amazon.co.jp/gp/product/B00EXHR1YE/ref=as_li_qf_asin_il_tl?ie=UTF8&tag=bibourocker-22&creative=1211&linkCode=as2&creativeASIN=B00EXHR1YE&linkId=32eb627eb6a2f1209a26a4b89b0671fd


 宣伝乙!これは六年ほど前に買ったサウンドカードです。

 最近は色々と新しい物も出ているみたいですが、基本的に良いクオリティでノイズ除去などなどを行いたいのであれば、それなりのサウンドカードの使用をオススメします。

 このあたりとか。

https://www.amazon.co.jp/gp/product/B07PRK7WM3/ref=as_li_qf_asin_il_tl?ie=UTF8&tag=bibourocker-22&creative=1211&linkCode=as2&creativeASIN=B07PRK7WM3&linkId=3228ff8c9f091550526c17b895bd16d6

 どうしてわざわざサウンドカードなのかっていうとね、これって元々、スピーカーやヘッドホンで音を再生する用途なんですよね。
 だから、そういった用途でのノイズ除去性能や音質を落とさない性能っていうのが非常に高いんです。
 PC的に言えば、それぞれ専用のPCIスロットで音の処理だけを担当してくれるのでCPUの負荷も減らせる(軽い&遅延が少ない)し、良い事ばっかりです。


 今回ここに書いたボイチェンのやり方をするのであれば、
Viveマイク→バ美声→サウンドカードのスピーカー(What U Hear)→VRC

 こういう形になるわけですから、遅延は少ない方が良いし、変換後の声をそのまま聴かせる性能やノイズを勝手に除去してくれる性能だって高い方が良い訳です。
 USB接続のサウンドカードだと、このあたりの性能が落ちちゃうんですよね。イコライザは掛けられるんですけど。
 なので、本気でHMDのマイクだけで成立させたいのであればこのクラスのサウンドカードに無駄遣いする事はとっても理に適っていると思います。

 USBのサウンドカードで最初にお試ししてみてから、ZxRやAE7クラスのカードを買うという手もあります。ノイズは酷いですが、そこはがんばってみて欲しいとしか。

https://www.amazon.co.jp/gp/product/B00EOCUNVQ/ref=as_li_qf_asin_il_tl?ie=UTF8&tag=bibourocker-22&creative=1211&linkCode=as2&creativeASIN=B00EOCUNVQ&linkId=b7e3e19c66bd22f155bc5592f336d6aa

https://www.amazon.co.jp/gp/product/B07P2D5BP4/ref=as_li_qf_asin_il_tl?ie=UTF8&tag=bibourocker-22&creative=1211&linkCode=as2&creativeASIN=B07P2D5BP4&linkId=ca0fa8a88397d18d7ecf683eb90a6f80



 この辺りとか。

 ただしお気付きの方もいると思いますが、音というものが物理的な振動によって引き起こされる現象である以上、たとえそのデータをデジタルに変換したとしても、スピーカーで再生して音に再変換するまでの間にどうしてもノイズを拾います。
 ダイナミックマイクなどが分かりやすいです。自分の場合、SHUREのBETA58とWH20XLRを試しましたが、vive及びベースステーションの電源が放っている固有周波数に干渉して、steamVRを起動した瞬間に物凄くノイズを拾ってしまっています。

 USBも例外ではなくて、なるべく接続端子は減らすべきというのが一般的かなあと思います。内臓サウンドカードならパソコンのマザーボードに直に差すわけだから、電源との干渉等その辺りの事情も考慮されていますし、ノイズが乗ってもサウンドカードパワーで除去してくれるわけです。
 おまけにイコライザでノイズ除去とフォルマウント調整もできる訳です。

 つまりHMDのマイクでボイチェンが成り立つわけですね!
 最強か!?!?!?


 あーもう書く事無くなった!大体書き尽くしたと思う!!
もう既にUA-100やVT-4を使っているそこのあなた! いやいやーって思うと思います。実際、文字だけ書かれてもいやいやーって思うと思います。
 なんかもう、そうしたら自分にフレンドを飛ばすとかTwitterをフォローするとか、そんな形で接触を測ってみてください。試しにボイチェンを使ってみます。


 はい!終わり、閉廷! 以上、みんな解散!

 書くの疲れてきた……。ADHDなんです。ごめんなさい。ネタじゃないです本当です。
 あとで加筆修正するかもしれないけれど、大体こんな感じです。本当に。良かったら試してみてください。

この記事が気に入ったらサポートをしてみませんか?