Empath研究所
聞き取りやすい声とは?
見出し画像

聞き取りやすい声とは?

Empath研究所

この記事を書いたのは 山岡さん.

1. この記事から理解できることは

・聞き取りやすい声にはどのような特徴があるのか
・声の聞き取りやすさはトレーニングで改善するのか
・弊社における聞きやすい声の簡易実験の結果

2. 聞き取りやすい声で話している人はどんな職業の人?

以下の12の職業の音声で聞き取りやすさの評価にどのような違いがあるかを確かめた。

  1. アナウンサー

  2. カーセールス

  3. ミュージシャン

  4. 女優

  5. 教師

  6. DJ

  7. 社長

  8. 学生

  9. 工場事務員

  10. 修理公務員

  11. レーサー

  12. オフィスワーカー

上記の1-6は普段から声を主に活用する職業として、7-12はそうではない職業として扱った。
その結果、聞き取りやすい声の評価が高い職業トップ3は

1位:アナウンサー
2位:カーセールス
3位:ミュージシャン

であり、
ワーストスリーは

1位:学生
2位:DJ
3位:オフィスワーカー

であった。
また、声を主に活用する職業の方がそうではない職業と比べてると平均的に聞き取りやすい声という評価を受けていた。

3. 聞き取りやすさと関係のある声質を表す言葉は何?

聞き取りやすさと関連のある声質を表す言葉を選ぶまでの流れとしては以下の5段階のステップを経た。

1.声質を表現する単語をリサーチとアンケートの結果から305語抽出
2.305単語に対して声質を表現するのに適しているかのアンケートを実施
(アンケート回答者は20~60代の男女55名。内訳:男性44名。女性11名)
3.アンケート結果から回答の平均点が高く、分散が小さい単語を抽出(33単語)
4.実際の音声に対して、抽出した33単語+「聞き取りやすさ」を用いて評価を行った
(評価用の音声は、様々な職業の男女の会話音声を用いた)
5.33単語に対してクラスター分析を行い、各クラスターにおけて評価点が最も高かった単語を抽出

上記のステップの結果以下の10個の単語が聞き取りやすい声質と高い関係があるとされた。

  1. はっきりした

  2. いきいきした

  3. 心地よい

  4. 高い

  5. 甘い

  6. 落ち着きのある

  7. 太い

  8. つぶれた

  9. 頼りない

  10. こもった

1-6番目までの単語は聞き取りやすさと正の相関が、7-10の言葉には負の相関がみられた。

またこれらの言葉に対して、因子分析を行うことにより聞き取りやすさを評価するための因子を見つけた。
因子分析の結果、

第一因子としては「明瞭度に関する因子」
第二因子としては、「音声の特徴に関する因子」
第三因子として「落ち着き度合いに関する因子」

となった。

4.トレーニングにより聞き取りやすさは改善されるのか?

聞き取りやすさの評価が最も低かった学生に対してトレーニングを行い、聞き取りやすさの向上が見込めるのかの実験を行った。
トレーニングの結果聞き取りやすさは向上した!!

また、聞きやすさを上げることを行った結果以下の知見を得た。
「トレーニングによって明瞭度に関する因子は値が大きく変化したが、音声の特徴に関する因子には変化がほとんど見られなかった」
このことから、音声の特徴は聞き取りやすさと関係はあるが、変えることはなかなか難しい。

5. 弊社における聞きやすい声の簡易実験の結果

▪ 実験内容
音声データ:Empath社内会議から抽出した音声のwavファイル
データ数: 312(女性話者のデータ数:146/男性話者のデータ数:166)
データの長さ:2-5秒の音声
評価ラベル:1-5の5段階評価(1:聞きとりにくい音、5:聞きとりやすい音)
評価者: 4名(男性2名、女性2名)

▪ 実験で用いた音響特徴量
chroma_stft:キーとなる音の音階
zero_crossing_rate:無音区間がどれだけ含まれるか
mfcc:人が感じ音の高さの指標
spectral_centroid:音声区間のうち、重心となる箇所がどこか
rmse:声の大きさ
spectral_bandwidth:音声周波数䛾スペクトル帯域幅
rolloff:スペクトルの85%を占める周波数

▪ 実験の流れ

  1. 音声データを作成する(1発話2-5秒)

  2. 音声データのラベル付け(評価者4名)
    評価者によって評価のばらつきの大きい音声データを除いて解析を行った。
    (ノイズ・音声の遅延・こもった声の音声では評価のばらつきが大きい傾向)

  3. 音響特徴量を抽出する(librosaを用いた)

  4. 機械学習を行い、聴き取りやすさ予測を行う(Pycaretを用いた)

▪ 実験結果
ランダムフォレストのモデルでは、男性話者の音声のみを用いて実験した際1-5段階の評価では精度の良い予測が難しかった。
ただ1-3段階の評価にラベル付けし直すと、59%に対して正確な聴き取りやすさ評価ができた。

下記図は、テストデータに対する予測結果の混合行列と、モデルにおいて重要な指標と重要度合いである。
混合行列より、3段階評価の場合、聞き取りやすさが普通と思われたデータの予測が難しいことが分かる。

これは人間の直感にも似たようなことがあるように思われる。
つまり聞き取りにくい音声や聞き取りやすい音声は特徴を言語化しやすいが聞き取りやすさが普通の音声の特徴は言語化が難しい

混合行列とモデルおいて重要な指標

また女性話者のみの音声での実験では、予測精度が50%, 男性女性両方の音声データを用いた実験では予測精度が36%となった。
実験結果を見ると、男性と女性の声の聞き取りやすさを評価する際に重要な音響指標は異なる可能性が高いことが分かった。

今後も評価ラベルの付いた音声データを増やして、実験を続けていきます。

6.まとめ

本記事では聞き取りやすい声というテーマを取り上げた。
聞き取りやすい声は評価が可能に思われる。
しかしながら、自動判定や簡易的なトレーニングによって向上させるためにはまだまだ研究が必要そうである。



参考文献


この記事が気に入ったら、サポートをしてみませんか?
気軽にクリエイターの支援と、記事のオススメができます!
Empath研究所
人の声から感情を解析するAIを国産でつくる株式会社Empathのメンバーがお届けするnoteです。日々の研究結果やまとめをみなさんにシェアし、技術や感情についての理解を深めて頂けたら幸いです。