声の定量的分類の仮説

2022年11月17日 20:35

どうも、映像や音を制作しているクリエイターのDeikoです！

音を言葉で表現しなければいけない状況ってたまにあるのですが、みなさんはどうしてますか？

先日こんなツイートが気になりました↓

自分が好きな声の傾向が知りたいんですけど、声の成分を測ったり分析したりできるツールってないですかね？歌声はもちろん喋り声も🤔もしくは、時分の好きな声の成分を言語化・可視化するとしてどんな表現になりますか？

好きな声って色々ありますが、『透明感がある』とか『甘い声』とか、かなり曖昧ですよね。

理系の自分としては、曖昧なものを白黒つけたくなってしまいまして笑

声を定量的に分類してみたらどうなるのか、考えてみました。(定量→数値化できる要素)

■検討

数値化できそうな項目を挙げてみます。

声の高さはわかりやすいですね。例えば、低い声の人は貫禄を感じますよね。数値として出す場合は、基本周波数というもので出来ると思います。採用○

声の大きさは印象に関わりそうです。例えば、大きい声の人は元気に感じますよね。しかし、録音レベルや録音機材の性能にも左右されそうです。数値の誤差が大きそうなので、不採用×

話す速さは印象に関わりそうです。例えば、ゆっくり話す人は穏やかに感じますよね。しかし、感情や状況にも左右されそうです。また、数値化するにしても切り取る音声の場所によって変わりそうです。誤差が大きそうなので、不採用×

日常で倍音を気にすることはないですが、印象に関わるようです。倍音量は人によって違うことがわかっています。
参考記事

整数次倍音と非整数次倍音と言われるものがありますが、簡単にまとめると、

整数次倍音
→正式な倍音、多いとクリアに聞こえる

非整数次倍音
→声では息などが該当するノイズ、多いとハスキーボイスやウィスパーボイスとなる

倍音とノイズの比率であるHNR(Harmonics-to-Noise Ratio)というもので数値化ができると思います。採用○

整数次倍音の中には奇数倍音と偶数倍音というものがあります。

奇数倍音
→基本周波数の奇数倍の倍音(3倍、5倍、、)
→多いと明瞭になると言われている

偶数倍音
→基本周波数の偶数倍の倍音(2倍、4倍、、)
→多いと温かみがあると言われている

声の奇数倍音と偶数倍音の数値を比べることで、明瞭なのか温かみがあるのかを判断できそうです。採用○

声を定量的に分類するには、

・基本周波数
・HNR (Harmonics-to-Noise Ratio)
・奇数倍音と偶数倍音の比

でできるのでは？という結果になりました。

考えた分類の仮説が下の表になります。

声の雰囲気はなんとなくこんな感じかなーというノリで入れてみました笑

例えば、元気な雰囲気を感じる声は
基本周波数が高くて、倍音が多くて、中でも奇数倍音が多いはずだ！
という仮説で成り立ってます笑

言い換えると、、、
元気な声は
→声が高くて、クリアで、明瞭度が高い！

声の分析ができるWebツールを作りました！
Voice Analysis

分析結果に、
・平均基本周波数
・平均HNR
・奇数倍音の割合
・偶数倍音の割合
・仮説を元にした声の印象
がわかるようになっています！
ぜひ、仮説を検証してみてください！

声を定量的に分類するためには、しきい値が重要になります。(しきい値→分類するための境界の値)

例えば、声が高いと言えるのは何Hzからでしょうか？男声と女声でも違いがあるので、どこを境界線にするのか難しいところです。

男声の基本周波数：80〜160Hzくらい
女声の基本周波数：165〜255Hzくらい

しっかりとしきい値を設定するには、ある程度のデータ量も必要になるでしょう。

声を定量的に分類できるのか、実際のところは実験してみないとわかりません。でも結構面白い仮説ができたような気がしています！では、バイバイ！

このノートが面白い、タメになったという方は是非サポートしてください。また、Deikoの音楽活動を支援したいという方は是非サポートしてください。