Empath研究所
音の三大要素について 第二回
見出し画像

音の三大要素について 第二回

Empath研究所

この記事を書いたのは 山岡さん.

0. 前回の記事の内容

前回は、音の三大要素の定性的な意味や特徴について説明しました。まだご覧になってない方はぜひこちらから読んでみてください。

1. この記事から理解できることは?

1. 「音の大きさ」を表す指標について
2. 「音の大きさ」を音声波形から数値化する方法

2. 音の大きさを表す指標

音の大きさを表す指標として、PeakRMSの2つがあります。
Peakとは音量の瞬間的な大きさを表しており、音量の最大値を表すための指標です。言い換えると、Peakはあるシステム(Ex:オーディオ機器、ソフトウェア)で計測される、単位時間(=サンプル時間)ごとの単純な音の大きさです。                           
RMSは音の持つエネルギーを平均した値であり、音量の連続性や持続性を評価する指標です。この指標は人間の耳が感じる音のエネルギー(=音圧)と関係があります。
図1はPeakとRMSのイメージ図です。

図1. RMSとPeak

この2つの指標をどのように算出されるかについて整理していきます。

2-1. Peakの算出方法

前述のとおりPeakとは、単位時間ごとの純粋な音の大きさなので、サンプリング周波数が44.1kHzなら$${\frac{1}{44100}}$$秒ごとに計測される音量のことを意味します。

Peakの値が大きい場合は突発的な大きい音、増減の幅が大きい音ことを意味しており、ドラムなどのパーカッシヴな楽器がピーク成分を多く含みます。つまりPeakの値が大きい音は、アタックが強い音と解釈出来ます。

2-2. RMSの算出方法

RMSはRoot Mean Squareの略で、日本語で二乗平均平方根と呼ばれています。
RMSはピークとは異なり、任意の一定時間内の音量変化を計算して求める音量データになります。
指標の概念としては、人間は$${\frac{1}{44100}}$$秒というような非常に短い時間で音量を捉えていません。例えば一秒前後の音量をまとめてその平均を一つの音の大きさと感じます。人間の聴覚はこうした特性があり、RMSはそうした人間の音量の感じ方と合った指標です。
数式でRMSについて考えてみましょう。

ある変量 $${x}$$ のデータ $${x_i}$$ (i = 1, 2, …, n) に対して、$${x}$$ の二乗平均平方根 $${RMS(x)}$$ は次の式で定義されます:                                                         
$${RMS(x) = \sqrt{\frac{1}{n}\sum_{i=1}^{n}{x_i^2}}  -(1) }$$
例えば、データ$${x= {1, 1, 2, 3, 5}}$$ の二乗平均平方根は次のようになります。
$${RMS(x)=\sqrt {\frac {1}{5}\left(1^{2}+1^{2}+2^{2}+3^{2}+5^{2}\right)}=\sqrt{8} -(2)}$$
RMSについて理解したところで、次に実際どのようにして音声波形からRMSを求めるのかについて考えましょう。
前述のとおりRMSは任意の一定時間内の音量変化を計算して求める音量データなのでRMSを算出するための区間を決めます。
この区間のことを音声フレーム(Speech frame)と呼びます。
図2においてオレンジの縦線で区切られている部分が音声フレームです。一つの音声において一般的に音声フレームは複数存在します。
音声フレームの長さはmsを基準として考える場合もあれば、音声フレーム内に含まれるデータの数(=サンプル数)を基準として考える場合もあります。

図2. 音声波形と音声フレーム

ここで、音声フレームの長さはどのくらいにしたら良いのかについて考えます。音声フレームの長さはどんな変化に注目したいかによって決めることが出来ます。例えば、ひらがなの一文字ずつの音の変化に注目したいなどです。ただひらがなに注目すると、一文字ごとで音の長さが異なってしまうため、一般的には、音の最小単位の音素の長さに注目しています。音声の音素の長さは30ms程度のため、音声フレームの長さは20ms~80ms程度の値が用いられます。また各音声フレーム内に複数のデータが含まれており、この一つ一つのデータが(1),(2)式における$${x_i}$$に相当します。例えば、音声フレーム内に含まれるデータ数が512個だった場合$${RMS(x)}$$は

$${RMS(x) = \sqrt{\frac{1}{512}\sum_{i=1}^{512}{x_i^2}}  -(3) }$$
で求めらます。
RMSの値が大きい場合は音圧が大きい音ことを意味しており、日常で感じる音量と大きな関係があります。
上記の関係から、RMSの値が大きい場合、音量が大きいと解釈出来ます。
このRMSに対して対数をとることで単位をdBにすることが出来ます。
なので一般的にはRMSに対して対数をとった値をシステムでは出力しています。

3. まとめ

・音の大きさに関する指標はPeakとRMSが存在する

・Peakが大きいとアタック音が強いことを意味している

・RMSが大きいと音圧が高いことを意味している

・RMSに対数をとることで音の大きさの単位がdBになる

次回の内容

次回は「音の高さ」を音声波形から数値化する手法について紹介します


この記事が気に入ったら、サポートをしてみませんか?
気軽にクリエイターの支援と、記事のオススメができます!
Empath研究所
人の声から感情を解析するAIを国産でつくる株式会社Empathのメンバーがお届けするnoteです。日々の研究結果やまとめをみなさんにシェアし、技術や感情についての理解を深めて頂けたら幸いです。