声の定量的分類の仮説
どうも、映像や音を制作しているクリエイターのDeikoです!
音を言葉で表現しなければいけない状況ってたまにあるのですが、みなさんはどうしてますか?
先日こんなツイートが気になりました↓
好きな声って色々ありますが、『透明感がある』とか『甘い声』とか、かなり曖昧ですよね。
理系の自分としては、曖昧なものを白黒つけたくなってしまいまして笑
声を定量的に分類してみたらどうなるのか、考えてみました。(定量→数値化できる要素)
■検討
数値化できそうな項目を挙げてみます。
声の高さ
声の大きさ
話す速さ
声に含まれる倍音量
倍音の種類
|声の高さ
声の高さはわかりやすいですね。例えば、低い声の人は貫禄を感じますよね。数値として出す場合は、基本周波数というもので出来ると思います。採用○
|声の大きさ
声の大きさは印象に関わりそうです。例えば、大きい声の人は元気に感じますよね。しかし、録音レベルや録音機材の性能にも左右されそうです。数値の誤差が大きそうなので、不採用×
|話す速さ
話す速さは印象に関わりそうです。例えば、ゆっくり話す人は穏やかに感じますよね。しかし、感情や状況にも左右されそうです。また、数値化するにしても切り取る音声の場所によって変わりそうです。誤差が大きそうなので、不採用×
|声に含まれる倍音量
日常で倍音を気にすることはないですが、印象に関わるようです。倍音量は人によって違うことがわかっています。
参考記事
整数次倍音と非整数次倍音と言われるものがありますが、簡単にまとめると、
整数次倍音
→正式な倍音、多いとクリアに聞こえる
非整数次倍音
→声では息などが該当するノイズ、多いとハスキーボイスやウィスパーボイスとなる
倍音とノイズの比率であるHNR(Harmonics-to-Noise Ratio)というもので数値化ができると思います。採用○
|倍音の種類
整数次倍音の中には奇数倍音と偶数倍音というものがあります。
奇数倍音
→基本周波数の奇数倍の倍音(3倍、5倍、、)
→多いと明瞭になると言われている
偶数倍音
→基本周波数の偶数倍の倍音(2倍、4倍、、)
→多いと温かみがあると言われている
声の奇数倍音と偶数倍音の数値を比べることで、明瞭なのか温かみがあるのかを判断できそうです。採用○
|検討結果
声を定量的に分類するには、
・基本周波数
・HNR (Harmonics-to-Noise Ratio)
・奇数倍音と偶数倍音の比
でできるのでは?という結果になりました。
■声の定量的分類の仮説
考えた分類の仮説が下の表になります。
声の雰囲気はなんとなくこんな感じかなーというノリで入れてみました笑
例えば、元気な雰囲気を感じる声は
基本周波数が高くて、倍音が多くて、中でも奇数倍音が多いはずだ!
という仮説で成り立ってます笑
言い換えると、、、
元気な声は
→声が高くて、クリアで、明瞭度が高い!
■Webツール作りました!
声の分析ができるWebツールを作りました!
Voice Analysis
分析結果に、
・平均基本周波数
・平均HNR
・奇数倍音の割合
・偶数倍音の割合
・仮説を元にした声の印象
がわかるようになっています!
ぜひ、仮説を検証してみてください!
■問題点
声を定量的に分類するためには、しきい値が重要になります。(しきい値→分類するための境界の値)
例えば、声が高いと言えるのは何Hzからでしょうか?男声と女声でも違いがあるので、どこを境界線にするのか難しいところです。
男声の基本周波数:80〜160Hzくらい
女声の基本周波数:165〜255Hzくらい
しっかりとしきい値を設定するには、ある程度のデータ量も必要になるでしょう。
■最後に
声を定量的に分類できるのか、実際のところは実験してみないとわかりません。でも結構面白い仮説ができたような気がしています!では、バイバイ!
このノートが面白い、タメになったという方は是非サポートしてください。また、Deikoの音楽活動を支援したいという方は是非サポートしてください。