デジタル音声の視覚化と印象

Hercelot

2020年2月7日 23:11

　デジタル音声のちょろっとしたイメージについての話

　今日はサクッと (= 厳密なところを省略して、責任から逃げながら) 書きたいのだが……
　学術的に間違ってる所は教えてくれ屋 (できればやさしく……)

＊＊＊

点を線でつなぐこと

　まず16歳ごろ習う数学の話します
　以下の3点を通る2次関数グラフを書きましょう

う〜ん、ホニャホニャ……

１）書けました。

　ばらばらの3点を通る2次曲線は、必ず1つに定まる。

　いや、数学とかわからんし……

２）これじゃだめやね

３）これはもっとだめでしょ

　まあ、高校数学とかおぼえてないもんで……へへっ

＊＊＊

デジタル音声ファイルのなかみ

　デジタルの音についての話題で、こんな図を見たことあるでしょ

スクリーンショット 2020-02-06 9.47.27 — 「左がアナログ、右がデジタル」みたいなね

「デジタルの波形はこうやってカクカク階段になっているよ。だからアナログよりも音が粗いんだ。でも、実際はこの階段がも〜っと細かいおかげで、あんまり粗く感じないから安心して。(ま、耳のいいオレはわかるんだが……)」

　この図はさっきの例で言えば、３のもっとだめ君の回答にあたる。

　デジタル音声ファイルはどんな中身をしているのか。波形の絵が書いてあるわけじゃない。
　言うなれば、点だけの状態を記したバイナリである (かたく言うと、「離散時間信号を量子化した」もの)。直線でも曲線でもない。

　これを音として聴こうとしたら、この点をつなぎ、波形という線にする作業が発生する。パソコンやCDプレイヤー、ワイヤレスイヤホンがそういう仕事を裏でしてくれている。

　マヌケなおれたち人間にその作業させたら、カクカク階段にしちゃう可能性も否めない。三次関数くらいまでなら計算できるけどさ……
　けど、コンピューター君はこういう単純な数学は大得意だ。美しいカーブを描くことだろう。

　じゃ、なんでカクカク階段で描かれがちかというと、たんに点だけで表現しても絵として伝わりにくいというのがひとつ。
　あと、アナログの音をデジタルに変換する時に (録音時とかね)、パルス符号変調 (PCM) という処理を行っていて、それはアナログ電圧を Sample & Hold したようなカクカク階段の見た目になる。
　記録済みのデータを再生するときはバイナリデータが DAC にブチこまれるのであんま関係ない、と思う。

＊＊＊

デジタル特有の性質

「じゃあコンピューター君がかしこいかしこいだから、デジタルはアナログと全く同等の美しい音がでるんですか？」

　比較の上では、たぶんそうではない。違いは大きく2点。

　1つ目。たとえばマイクの音をデジタル録音するとき、"点の集まり"として記録していくわけだが……その際「点の縦の位置をキリのいい位置へ若干ズラす」ことがある (量子化誤差)。
　世のだいたいの音楽ファイルは 16bit。これは縦に65,536段階で記録してるということで、それより細かいハンパな位置はちょろまかしている。

　ハイレゾだとこれが1,700万段階だったり、音楽編集ソフトでの処理中は1,700万分の1よりも小さい信号は更に170澗分の1倍まで記録できる。こう見ると65,536段階なんてガタガタに思えるけど、コンピュータが綺麗に繋ぎ直すことをお忘れなく。
　あと、音楽編集ソフトがやけに細かいのは良い音で聴くためと言うより、編集作業で何度も音をイジっても劣化しにくくするため。

　ちなみに、アナログをデジタルへ録音する時だけじゃなく、デジタル→デジタルの変換でも同じことが起きている。
　たとえば、パソコン内のシンセサイザーソフトを鳴らしてファイルにするときは、粗めのデータとして保存することがある。最高品質じゃなくても音色としては誤差とすらわからないくらい問題ないわりに、ファイルサイズがめちゃ小さくなるからだ。

　しかも、その誤差をもっと減らすテクもある (ディザリング)。

　2つ目。デジタルは"ある基準よりも高い音"は記録できない。
　"ある基準"は自由に決められるので、普通は、人間にはとうてい聴こえないぐらい高〜い超音波を基準にする。聴こえる可能性のある音は全部記録したいからね。

　そしてその、人間が聴こえる = 記録できた部分に限っては、デジタル上でも完全に再現できる (標本化定理)。
　意外だろうか？　最初の数学の例で「3点を通る2次曲線が、必ず1つに定まった」のと似た話だ。(ついさっき言った量子化誤差はあるけどね。)
　すなわち、デジタルで再現できないのは「人間に聴こえない超音波の成分のみ」ってことだ。

　じゃー、超音波の成分のあるなしで、波形はどう変わるの？　とりあえず図で見てみよう。

　左図は 70 Hz くらいの低音で、右図はそこに 13,000 Hz くらいの高音を少し足してみた。
　(あるいは、右から 13,000 Hz を取り除くと左になるとも言えるね)

左が低音のみだからﾏｯﾀﾘ。右は高音 = ｷﾞｻﾞｷﾞｻﾞ成分がちょっぴり足されてる

　ちなみに 13,000 Hz の音って、高めだけど誰でも聴こえる程度の高さ。
なので実際は、もっともっとｷﾋﾞｷﾋﾞした、人には聴こえない超音波だけを取り除く。CDなら 22,050 Hz 以上を取り除く。
　↑の図でもそうしたかったんだけど、この図を描画したツールでは 20,000 Hz 以上をマトモに表示すらできなかったので (そんな超音波見られなくてもいいってことかな)、仕方なく 13,000 Hz にしました……

　若い人間の耳で聴こえる限界がだいたい 20,000Hz。おれの耳は今 17,500 Hz くらいだった。みんなも測定してみよう！

　ここまでの「点を打って、つないで」って話は"リニアPCM"っていうデジタル音声記録方式の話だ。主流な方式で、そのへんの CD とか WAV とかはコレが使われている。

　場合により、もっと美味しい部分にフォーカスする他の方式もある。
　振幅を全部または一部対数軸で取ってみたり、直前時刻との差分を取ってみたり、近傍時間から次を予測してスケールを都度調整してみたりする。
　いつだって、目的に応じた音質と限られた容量のバトルだ。電話用の音声は会話ができれば美麗音質じゃなくてもまあいいし、それより「軽くて速い！」ほうが大事かもね。

　あと PCM じゃなく PDM (ΔΣ変調 / 1bit / DSD) つう根っから別の考え方のものもあり、かさばる代わりに高音質を求めたりもする。

＊＊＊

視覚イメージは慎重に

　理屈っぽいことをタラタラ言ってきましたが……何が言いたかったかというと、印象とイメージの話。

　なんしか、デジタルとアナログを聴き比べるぞ！という時にあのカクカク階段が脳裏をよぎってしまうと……すごい違うもんだぞってバイアスがかかると思う。視覚イメージって強いから。
　デジタルのことを、左図くらいガタガタのヘッポコだと思っていたら、じつは右図くらいの差でしかない可能性もあるわけだ。

　ただもちろん、逆のバイアスにも注意する。
　いまの右図を見ると「赤線と黒線、ほぼ一緒じゃん」と思う。でも、人間の耳や脳だってけっこうすごくて、音の違いを感じ取れるかもしれない。あなたの耳だって捨てたもんじゃないかも？

　まあとにかく、「デジタル音声は、カクカク階段を音として放り出してるわけではない」ってことだけ……

＊＊＊

　波形もそうだし、スペクトラム・アナライザーなどもそうだけど、視覚的に音を視る・数字で測定するときは、目的意識に気を払うとグッドだ。

　もちろん、視覚や数字に換えて比較することでいいことは色々ある。「完全一致してるか・否かがまずわかる」し「否なら、その差がどこに出てくるかわかる」。「わかれば、より厳密に測定できる」だろうし「将来的にもっと大きな問題になるかもしれないのを対策できる」。
　そういう、科学的にどうにかしたいぜ！という時にはちょう便利。

　一方で、聴いた感じの良し悪しをゴールとする場合は、純然と耳の判断を重視したほうがいいかもしれない。差の有無は科学的に判定できても、その差の大きさがあなたの感覚にどんなスケール感で認識されるのかは、数字より先の領域だ。

　その前提で、サポートとして視覚や数字を使うのはよさげだ。「漫然と聴くだけよりツールを目視したほうが"気づきやすい"」とか、「おれの感覚は体調や気分によって変わりすぎてアテにならない」とか、「おれは気にならないけど、世の人々は気にするかもしれないから世間の基準が定量的にほしい」などなど事情はある。
　なので、印象や先入観に振り回されない範囲でうまくやっていく、のが無難な着地となる。

おわり

投げ銭いただけたら、執筆頻度が上がるかもしれません