見出し画像

物理屋的レコーディングのススメ

割引あり

親の声より聴いたノイズ

「ですので…ボフッ、この数式がガサッ…するのはボフボフボフ…なので…キィーン!!!!
勘弁してほしい。全く内容に集中できない。どんなに素晴らしいプレゼンテーションでも、これができないと台無しである。あなたの素晴らしいプレゼンは聴衆に届かず、お互いのイライラを募らせ、時間だけが無為に過ぎていく
ましてや大学で物理の教鞭を執っている教授なら、マイクの原理やノイズについて知らないわけがなかろうに…。

以前から、物理の講演や、リモート会議での人々のマイクの使い方に不満を持っていた。加えてここ数年、YouTube収録をするようになり、録音環境に四苦八苦し、仲間たちと音声処理で試行錯誤を繰り返してきたので、ますますうるさ型になりつつある。そこで、このフラストレーションを改善案として前向きに消化したいと思う。原理を知り、音響そのものへの理解を深めれば、場所や道具が変わっても応用できるはずだ。

講演やプレゼンでピンマイクを使う機会がある人は、下記の「ピンマイクの使い方」だけでも読んでいってほしい。そして知人に広めて欲しい。この世から衣擦れノイズを根絶しよう

手っ取り早く改善するなら

結論から言うと、以下のようになる。

  • 大きな声を出す

  • なるべくマイクの直後にアンプ (増幅器) を繋ぐ

  • 部屋に吸音できるもの (やわらかいもの) を置く

  • 良い (適切な) マイクを使う

  • 静かな環境を用意する

そう、当たり前の話だ。しかし、なぜこれらが当たり前なのだろうか?前提に物理を意識しているかどうかで、理解度が全然違ってくるし、機材やエフェクトの取り扱いも違ってくる。実は一流の専門家・研究者とは「当たり前のことをキチンと理解して、当たり前に使いこなせる」という人のことだったりする。
以下では、簡単な物理的背景を準備したうえで、上記の改善方法について詳しく説明していく。物理なんて嫌だ!という人は「音響を改善するには」の項に飛んでもよい。わからない用語は、適宜「音響用語」の項を参照してほしい。


音の物理速習コース

波の物理について概説する。より詳しく、映像+音声でインプットしたいという方はこちら (下) の動画を参照して欲しい。振動・音波・共鳴といった概念について理解できると思う。

空気の波

音は空気の波である。ここまでは誰でも知っていると思うが、海の波と違い、縦波であることを理解できていない人は意外と多い。音波では、空気は音の進行方向に対して平行な向きに振動する。つまり、空気の濃いところと薄いところが交互にできることで波として伝わるのだ。これを疎密波という。
しかし、疎密波は直観的に理解しにくいし、図にも表しにくい。人間の目は、大きさや長さを比べるのには優れているが、密度の高さを見るのには慣れていないからだ。そこで、下図のように「空気が元の位置からどれだけ動いたか」を値に変換し、y軸にプロットする (もともとの位置をx軸にする)。これで見慣れたサイン波が登場するというわけだ。

元の位置からのズレ (図1,2のズレ、図3のピンクの矢印) を90度回転させる。すると、図4のようなグラフになる。
http://adoko.blue.coocan.jp/hadou/hadoukiso5.html

こうして得られたサイン波は、3つの性質をもつ。それは、周波数 (波の細かさ)、振幅 (波の大きさ)、位相 (波の位置) である。それぞれについて深入りするのは避けるが、周波数は音程、振幅は音量に関係している。位相は複数の波を組み合わせるときに重要になるが、いったん置いておこう。

デシベル~対数のチカラ

以上、波がどんなものか整理してみたが、物理現象と我々の感覚は必ずしも1対1には対応しない。例えば音量・音程がそうである。
例えば、音量として感覚に近い単位としてデシベル (dB) があるが、同じ  5dB の二つの音を足し合わせても、10dB になるわけではない。振幅が2倍になっても、デシベルは倍にならない
同じ1オクターブでも、ドの1オクターブとレの1オクターブで周波数の差は一定ではない。オクターブとは「周波数が倍である」ことである。

音量も音程も、差ではなく比で決まるのだ。これらは、対数で表現される。

ある基準の振幅 $${A_0}$$ に対し、振幅$${A}$$のデシベルは、
$${10\log_{10} \left(\frac{A}{A_0}\right) = 10\log_{10} \frac{A}{A_0}}$$
と表される。なんだかややこしいが、基本的には比を (グラフで) 見やすく表したに過ぎない。デシベルのデシは、デシリットルのデシと同じで、1/10倍という意味である。係数の10はこのデシによるものだ。ベルという単位を10分割したということである。音程も同じく対数を使って表され、$${a,b}$$二つの周波数の間隔はセントという単位で
$${n = 1200 \log_2 \frac{b}{a}}$$
と表される。この時、(平均律では) 常に100セントが半音、1200セントが1オクターブに相当する。

重要なのは、+6 dBで音量が1.995 倍、つまり約2倍になるということだ。逆に言うと、同じ音を二つ足し合わせると6 dB増えるということになる。加えて、dBはあくまで相対的なものなので、その数値自体に意味がない。

ただし、予め基準を設定した単位も存在する。例えばデジタル音源の音量は、その機器で出力できる最大音量を0としてdBFSという単位を用いる。FSはフルスケールの略で、0を超えてしまった音は処理できず割れてしまう。したがって、動画や音源の編集の際には、最大値が0 dBFSを超えないように注意して調整する必要がある。
もう一つ、関連する単位として、アナログ音源の音量は、dBuという単位で表される。こちらは音響機器の0.775 V (= 0 dBu) を基準とした値で、0より大きい値を取ることもありうる。dBuとdBFSの間の変換にはしばしば注意を要する。

なぜそんなにややこしいことをするかというと、これが人間の感覚に近いからである。
人間の感覚器は、基本的に相対的にしか測れない。何かと比較して、「大きい」とか「高い」とかを判定しているのだ。したがって、何かの値が「10増えた」と考えるよりも、「倍になった」というようにでとらえる方が感覚に近い。
しかし比で比べてしまうと、たとえそれが2倍であったとしても、その次は4倍、8倍、16倍…とどんどん大きくなる。棒グラフに描くと、最大の棒だけが見えて他のものはほとんど見えなくなってしまう。そこで、対数、すなわち「2の○乗」という形で書き表してやることで、関係性がぐっと見やすくなるというわけだ。

S/N比

一般的に、あらゆる信号 (測定) にはノイズが混入する
マイクで音を拾うときにも、空調や冷蔵庫などの電子機器の音、衣服がこすれる音、呼吸音、反響音など、必ず雑音が入る。音を電気信号に変換した後は、電気的なノイズが問題になる。
良い音質を得るためには、目的の音 (声や楽器など) だけを取り出し、上のような雑音を消去する必要がある。実際には完全に消去することは不可能なので、限りなく小さくすることが目標となる。

小さく、といっても絶対的な基準はない。大事なのは、目的の信号 (Signal) と雑音 (Noise) の比率である。これらの頭文字をとって、S/N比という。
したがって、S/N比を上げる方法は2つある。

  1. シグナルだけを大きくする。

  2. ノイズだけを小さくする。

これだけだ。ただし、「音の良さ」「聞き心地」を決めるのはS/N比だけではない。聞いている途中で突然音量が大きくなったり小さくなったりすると聞きづらい。小さい音に合わせて音量を上げると、大きい音で耳が痛くなってしまう。そこでもう一つ重要なのが、

3. 信号の最大値と最小値の幅を狭くする。

という点である (音楽的効果を狙う場合はこの限りではないが)。以下のすべての音響改善策は、この3点に帰着する

音響用語

音響に関連して、物理よりは工学寄りの用語が多くなるので、これらを解説しておく。

ゲイン

マイクに入る音量そのものは小さいが、最終的にスピーカーから再生されるとき、ほとんどの場合で音量は増幅されている (逆に小さくすることもあるが、それはむしろ防音をしたい場合だろう。位相を反転させて音を打ち消し、「ノイズキャンセリング」をするという方法もある)。
その増幅率をゲイン (Gain) といい、増幅器のことをアンプ (Amplifier) という。音量に関してであれば、これもdBで表記するのが一般的だ。つまり、元の音源を0 dBとしたとき、どれくらい大きく (小さく) したかという割合をdBで表すのだ。したがって、こちらも+6 dBで約2倍となる。

一般に、ゲインを上げるとシグナルが大きくなるが、同じ比率でノイズも増幅される。したがって、音声録音時のノイズ対策には効果がない。
しかし、アナログ電気信号として伝送する場合、伝送時に乗るノイズは信号に依らず一定であるので、伝送前に増幅しておくことは電気ノイズ対策となる (S/N比は、非増幅での伝送 $${\frac{S_{raw}}{N_{trans}}}$$ よりも、増幅してからの伝送 $${\frac{GS_{raw}}{N_{trans}}}$$ の方が良くなる)。また、増幅をすること自体によってもノイズが加算されるので、増幅の回数は少ない方が望ましい。したがって、「初段でできるだけ増幅」が大原則である。

増幅するごとに、ノイズ (色つき部分) も増幅されてしまう。同時に、アンプ自体によるノイズも加算されていく。
https://toshiba.semicon-storage.com/jp/semiconductor/knowledge/faq/linear_opamp/what-types-of-noise-affect-an-op-amp.html

一方、伝送・処理・出力できる信号の大きさには限界がある。限界を超えてしまうと、サイン波の上下が切り取られてしまい (クリップ)、高周波のノイズが入る 。ギターのオーバードライブエフェクト (ロックでギャンギャン言ってるアレ) はこれに近い。なので、録音の最大音量が限界値に達してしまわない範囲で最大限の増幅をかける必要がある。

限界を超えたサイン波は、クリップされてしまう。周波数成分を見ると (右側)、等間隔の周波数の高周波が増えていることがわかる。
https://www.prosoundweb.com/clip-to-be-square-an-investigation-into-the-effects-of-clipping/

ノイズフィルタ、ゲート

その名の通り、ノイズを消してくれるのがノイズフィルタだ。原理や手法については様々なものがあり、多岐にわたるのでここでは割愛する。一般的には、目的の周波数から離れた周波数の音を消す、というのが基本である。
この辺りのことを詳しく知りたい場合は、例えばこちらの本をオススメする。普通に理系大学生向けの教科書なので注意。

このノイズフィルタの性能にも当然限界があり、特に目的音に近い周波数の音は消しにくい。反響音などがそれにあたる (元の音が反響しているだけなので、当然周波数が近い)。

そこで、ある程度 (閾値) より小さい音を、より強烈に小さくしてしまおう (あるいは消してしまおう)、というのがゲートである。

理想的なゲートの例。ある強さより弱い音は0にしてしまう。
https://jeea.or.jp/course/contents/07206/

ゲートは強力だが、閾値を上げすぎると音の鳴り始めや鳴り終わりにプツプツというノイズが入ってしまったり (これはリリースタイムを設定することで防げる)、サステイン (伸ばしている音や残響) が途中で切れてしまったりする。
また、反響音が完全にゼロになると、それはそれでこもったような音に聞こえるため、少し反響音を残すか、反響音が少ない環境で録音した後に理想的なエコー処理をするのが望ましい。

コンプレッサー、リミッター

ゲインの項で述べたような音割れを防ぐために、信号の大きさに上限を与えるのがコンプレッサーリミッターである。
リミッターは、上限を超えてしまった信号を無理やり上限値に抑えるものなので、結局上図 (ゲインの項、最終図) のような波形になってしまう。しかしリミッターなしで信号が上限値を迎えると、一般的には音が不安定に (波形がぐちゃぐちゃに) なったり、機器を損傷してしまったりするので、そういったことを防ぐ意味でも重要である。

一方のコンプレッサーは、ある大きさを超えた信号を、徐々に弱めていくという処理である (下図を参照)。

コンプレッサーの例。横軸が入力信号、縦軸が出力信号。この例では、-20 dBを超えた入力に対し、5:1の比率でコンプレッサーをかけている (傾きが1/5になるようにしている) 。つまり、ある振幅を超えた分を、1/5に縮小する。
コンプレッサーで圧縮された信号の例。リミッターは∞:1の場合にあたる。
http://kusomimi.seesaa.net/article/436743980.html

コンプレッサーは録音時や出力時の音割れを防ぐのに非常に便利であるが、一方で音量の最大値とノイズの最大値の距離を近づけてしまう。つまり、S/N比を下げてしまうのだ。この点には注意が必要である。
例えば、反響の大きい部屋での録音で、反響音を減らす処理をする前にコンプレッサーをかけてしまうと、相対的に反響音が大きくなってしまう。こういった性質から、コンプレッサーはノイズ除去などを行った最後にかけるのが基本である。

また、あまりに強くかけすぎてしまうと、当然波形のゆがみは大きくなり、こもったような音、最終的にはロボットボイスになってしまう (原理的にはオーバードライブと似ている)。したがって、不自然さを失わない程度に調節してやることが重要だ。

また、コンプレッサーだけでは音量が小さくなってしまうので、最後に全体の音量を持ち上げてやる必要がある。DaVinci ResolveではMake upという項目がそれにあたる。

ハウリング

これはスピーカーから出力するときに起こる。マイクがスピーカーに近づきすぎると、ある時から、
スピーカーの音がマイクに入る→増幅される→スピーカーから出てまたマイクに入る…
と無限ループが発生してしまう。こうなると、スピーカーの最大音量に達するまで際限なく音量が増えてしまい、非常に不快な「キィーン!!!」という音が出る。訓練されたハードロッカーでもない限りは、避けるべき事態である。

これを避けるにはもちろん、

1. スピーカーとマイクを離す
2. スピーカーの音量を下げる
3. 集音域の狭い (近くの音だけ拾う)、あるいは指向性の高い (特定の向きの音だけ拾う) マイクを使う

といった対策が必要となる。
基本的には、スピーカーの音量を下げるしかないだろう。また、話しているときに、動いてマイクをスピーカーに向けてしまわないように注意しよう。

ピンマイクの使い方

関係ないという人も多いだろうが、ピンマイクを使うコツをメモしておく。

ピンマイクは胸のあたりにつけて、顔の周りの音を中心に拾うものだが、その性質上、体や衣服に擦れてノイズが乗りやすい。特にケーブルの擦れが厄介で、多少体を動かしただけでガサガサとノイズが入ってしまう。ノイズキャンセリングが入っている場合には、声ごと消されてしまって途切れ途切れになってしまうこともある。これは、ケーブルの振動がそのままマイクに入力されてしまうためだ。同様の現象は他のマイクでも起こりうるが、ピンマイクのヘッドは非常に軽いため、こういった振動の影響が無視できなくなる (コンデンサマイクの多くがずっしりしているのは、この現象とも関連する)。

そこで、ピンマイクのケーブルの振動をヘッドに伝えないように、下図のようにケーブルを1巻きしてクリップに挟むのが良い。製品によっては、あらかじめこのようにケーブルを固定する金具がついていることもある。
重要なのは、ケーブルが引っ張られていない部分を作ることだ。ループが小さすぎて堅くなっていると効果が減少する。だがたったこれだけで、このループより下のケーブルの振動がマイクに伝わらなくなり、ノイズが劇的に減少する。
機会がある人は試してみるといいだろう。もしこれを読んでいるあなたが講義やプレゼンでピンマイクを使用することがあるなら、絶対にやれ。絶対にだ。ピンマイクの衣擦れノイズなどこの世に必要ない。

https://amzn.to/3VyqQTl

また、ピンマイクはそれほど顔に近づける必要はない。周辺の音をしっかり拾うように作られているはずなので、無理に顔に近づけすぎると呼吸音などが入ってボフボフという不快なノイズを生んでしまう。
胸につけた状態でうまく音が拾えないのであれば、音量の設定か、自分の声の大きさを見直そう。どうしても顔に近づけたい場合には、風防は必須である。

音響を改善するには

上でもいくらかのテクニックを紹介したが、以下にもっと本質的なノイズ対策を解説する。

信号を大きくする

ここから先は

2,652字

この記事が気に入ったらサポートをしてみませんか?