[聴覚心理]院試備忘録9.聴覚の様々な現象

9-1.キーワード

マスク、ラウドネス、音高、音色、ミッシングファンダメンタル、聴覚情景分析、連続聴効果、音源定位、先行音効果、カクテルパーティー効果、音声認知

9-2.マスキング

静かなときには聞こえた音が、騒音の影響で聞こえなくなる時があると思います。
これがマスキングです。
JISによる定義は二通りに定義されていて、次のようになっています。
1.他の音の存在によって、ある音の聴覚閾値が上昇する現象
2.上の1の現象による聴覚閾値の上昇値。単位[dB]
聴くべき音を信号音(signal)、プローブ音(probe)、テスト音(test tone)、マスキー(maskee)など様々な呼び方があります。
妨害となる音はマスキング音(masking tone)、マスカー(masker)と呼ばれます。
マスキングには二つの種類があり、同時マスキングと継時マスキングです。

9-2-1.同時マスキング(simultaneous masking)

信号音がマスキング音に時間的に重畳しているマスキングです。
重要な性質は、周波数が近いほどマスキング量が大きく、遠くなるにつれてマスキング量は小さくなります。
マスキング音を固定して信号音の周波数を横軸、縦軸にマスキング量をとったものをマスキングパターンと言います。
このマスキングパターンは聴神経の発火数の場所パターンを反映していると考えられています。
実験によると次のことがわかります。
①マスキング音の音圧が上昇するとマスキング量と周波数範囲が広がる。
②マスキング音の音圧レベルが大きい場合のマスキングパターンは周波数に関して非対称
マスキングの生理的起源としては二つあります。
信号音に対する聴神経の応答がマスキング音に対する神経応答の中に埋没する考え方と、信号音に対する聴神経の応答がマスキング音によって抑制(二音抑制)されるという考え方があります。

9-2-2.逆向性マスキング

信号音に対してマスキング音が時間的に後からマスクする現象です。
一見すると因果律から外れているように感じます。
信号音が短く、小さい音であり、マスキング音が大きい音である時、逆向性マスキングが起きます。
これは信号音よりマスキング音に対する神経発火の速度が速いことによって生じます。

9-2-3.順向性マスキング

マスキング音が終了してから信号音が提示されたときに生じるマスキングです。
これが生じる理由の一つとして考えられていることが基底板の影響です。
基底板に音が入ってくるとき、緩やかに成長して、音が止まると緩やかに減少します。
基底板は狭い帯域の帯域フィルタと考えることができますので、強い音が停止しても振動はしばらく続きます。
したがって聴神経の発火もしばらく続くことで、埋没あるいは抑制が生じると考えられています。

9-3.音の心理的属性

音の波形を一般的に表すと、例えば
ψ(t)=Σai*exp{-j(2πfit-φi)}
と表すことができます。
ここでの物理量と心理量の対応として、
ai:各成分音の音圧の振幅⇔音の大きさ(ラウドネス,loudness)
fi:成分音の周波数⇔音の高さ(ピッチ,pitch)
ψ:音の波形⇔音色(timbre, tonal quolity)
が心理的な基本の属性です。

9-3-1.ラウドネス(loudness)

ラウドネスとは音の大きさという心理量です。
これは周波数と音圧の二つの物理量によります。
つまり、同じ音圧でも周波数を変えるとラウドネスは変化します。
ここで実験によって求められた、同じラウドネスを繋いだ曲線をみていただきたいです。

スクリーンショット 2020-10-11 午前0.07.07

これは等ラウドネス曲線と言います。
ここからわかるのは4kHzでは音が大きく聞こえやすい、低音は音圧が大きくても小さく聞こえる、などです。
1kHz以上の曲線の形状は頭部伝達関数(HRTF)の影響であると言われています。
ここでややこしいことを一点。
ラウドネスレベルとラウドネスという二つのものがあり、両者は定義と単位が異なります。
最初にラウドネスレベルが「同じ大きさに聞こえる1,000Hzの純音の音圧レベル」で単位は[phon]です。
次にラウドネスは「音の大きさのレベル40phonの音を1soneとし正常な聴力をもつ人がそのn倍の大きさと判断する音の大きさをn[sone]と定義する」とあります。
図から例を上げて考えてみましょう。
200Hzの70dBの音は何phonで何soneでしょうか。
答えは60phonで1.5soneです。

9-3-2.音の高さ(pitch)

最初にここでいう音の高さ、ピッチとは音楽における音名や音声における基本周波数とは異なります。

ここでは周波数という物理量が心理尺度上に投影された音の高さです。
音の高さの表現の一つとしてメル(mel)という尺度があります。
これは「1kHzのピッチを1000[mel]として、その半分に感じられたピッチを500[mel]とする」ように定義されています。
このメルに対しては問題があります。
我々にはオクターブという音楽的な感覚があり、一次元尺度化であるメル尺度は批判が多いです。

このような心理的な効果を満たすものとしてトーンハイト(tone height)とトーンクロマ(tone chroma)があります。

スクリーンショット 2020-10-11 午前0.21.01

例えばある周波数の音と、その2倍の周波数の音を入力すると基底板の同じ部分が振動することが想像できるでしょう。
このようにオクターブの感覚も音の高さには関わってきます。

しかしながら、実際の生活ではこのような性質が常に満たされるわけではありません。
例えば基本周波数が同じ「イ」と「オ」を聞いたとき、「イ」が高く感じられる場合が多いでしょう。
音楽的には同じ高さであっても心理的には異なるので、音の高さは必ずしも1次元的な性質では説明できないこともあります。

9-3-3.音色(timbre, tonal quolity)

音色は「ねいろ」と「おんしょく」の二つの読み方があります。
学問領域によって読み方の傾向はありますがどちらも同じと考えて良いでしょう。

音色の定義は「物理的に異なる二つの音が、例え同じ音の大きさ及び高さであっても異なった感じに聞こえるときのその相違に対応する属性」です。
音色を表現するときには数十種にものぼる表現語があり、このように非常に多い表現語を用いることは実用的ではないです。
そのため、これらの表現語をいくつかのグループに分ける分析が行われ、この手法としてはSD法(semantic differential法)を用いています。
様々な研究の一つの例として、厨川et al.(1978)による結果を紹介します。
この結果、音色は大きさ、高さ、快さの三つの直交次元(主属性)で表現できるようです。
この3つの主属性と斜めに交わる軸として音色の協和性(澄んだ-濁った)、明るさ(明るい-暗い)、なめらかさ(なめらかな-荒い)、豊かさ(豊かな-やせた)の4つの属性を示しました。

9-4.聴力

人間の可聴範囲は次のようになっています。

スクリーンショット 2020-10-11 午前0.15.24


横軸は周波数[Hz]、縦軸は音圧レベル[dB]です。
ここからわかるのは音の聞き取れる範囲は物理量である音圧レベルに対して一定ではないということです。
周波数によって反応は鋭敏な部分もあります。
また、過大な音圧では音の感覚は痛覚に移行します。

9-5.聴覚情景分析

生活上で、例えば食堂で友人と話しているとき、そこでは様々な音が鳴っています。
友人の声、周りの人の声、食器の音、BGM、空調の音などがある聴覚的な情景を想像できると思います。
これらの音から自分の必要な音を分離して、一つの知覚的なまとまりとして把握することが必要です。
この一まとまりを音脈(stream)、いくつかの音脈が分離してまとめることを音脈分凝(stream segration)と言います。
そしてこのような情報処理過程を聴覚情景分析といいます。
外界の音をニューロンの発火パターンとして中枢へ送る過程をボトムアップ処理といい、これに対して生得的に持つ知識によって枠組みを作り聴覚的体制化を図ります。
これをトップダウン処理といいます。
人間がどのように音脈分凝、つまりグルーピングをするかは時間、周波数や音色など様々な要因が関係しています。
現在も様々な研究がされています。

9-6.方向知覚、音源定位

両耳で聞くことで音の到来方向を人間は感じることができます。
この仕組みは前述しているのでそちらを参照していただきたいです。
ILDとITDというものが深く関わっています。
一つ重要なこととしては、音源が前か後ろにあるかの判断の誤りが多いということです。
人間の頭を完全な球と仮定するとILDとITDは前と後ろで同一になります。
また実験では頭を固定しています。
したがって、人間は頭部を動かしてILDとITDの関係を把握することで定位判断を容易にしている可能性があります。
また、人間の頭の形状は完全な休憩ではなく、特に耳介の形状がある程度寄与しています。

これに関する現象として一つに先行音効果、(あるいはハース効果とも)があります。
これは音源が二つ以上あるとき、1~50[msec]の遅延を与えると一番最初に聞こえた音の方向であると知覚する効果です。
1[msec]以下である場合は先行音効果は生じず、音像(感じられる音源の位置)は音源の間に生じます。

また、カクテルパーティー効果も関連します。
これは音源の方向、距離、音色、言語に関する知識や経験、認知機能、視覚などが関与しています。
視覚との統合に関してはマガーク効果などの現象が知られていますが、これに関しては後述します。

9-7.言語の表出と認知

言語を考えるときには音声の系統発生や起源、音声を発話、音声を認識、音声を言語として処理するなどの種々の視座があります。
発生について考えるのであれば刺激とそれに対する反応などの比較行動学が領域となるでしょう。
また、符号として情報学からの観点からも見ることができます。
言語の習得では心理学などの領域が主になると思います。
また、思考する際の言語として考えることもできます。
発話ということであれば音声学や音響学、医学から見ることとなるでしょう。
ここでは音声を認識する聴覚系についてみてみます。
いずれにしても言語という巨大な知の対象に対して一つの見方をご紹介するのに過ぎないので、一つの系としてみていただきたいです。

まず蝸牛では有毛細胞によって音が電気信号に変換されます。
母音はフォルマントというスペクトルパワーの大きな周波数帯に対する特徴周波数(反応しやすい周波数)を持つ聴神経発火が生じています。
子音は持続時間が短く、様々な手法で解明をしようとしています。
共通しているのは子音から母音に移行する部分に注目をしています。
ここから聴覚伝導路に関しては出典をみていただけたらと思います。

大脳では次のようなプロセスで処理がされています。
音響分析→雑音と語音→連続した音韻の処理→両耳間の聴覚情報の処理→...
大脳の中で関与するのは
前頭葉-ブローカ野:ブローカ失語に関与、運動性言語野。
前頭葉-運動野:四肢や口など運動中枢
前頭葉-補足運動野:自発的な発語に関与
前頭葉-前頭前野:思考など最も高次な脳機能を統合。
頭頂葉-頭頂連合野:他の様々な部位からの連絡繊維が密に交わる。
側頭葉-一次聴覚野:音声は脳幹から最初にここに送られる。
側頭葉-聴覚連合野:言語や音楽などの情報処理を含む高次脳機能の場とされる。
側頭葉-ウェルニッケ野:感覚として言語を認識することに関与か。
後頭葉-一次視覚野:視覚情報はまずここに送られる。
後頭葉-視覚連合野:形、色、動きなどの認識
関連して失語症についていくつかの例をあげます。
ブローカ失語:ブローカ野の障害による。構音やリズム、抑揚は障害されるが聞き取りは保たれる。
ウェルニッケ失語:聞き取りの障害が主体である。発話はむしろ多弁になると言われる。

これらの機能診断についてはPETという血流の検査で調べられます。
いずれにしてもこれらの大脳の部位は相互に関与していますので完全に言語の認識が明らかになるのはまだのようです。

9-8.マガーク効果

耳からはpaと聴きながら、目からはkaと発音している人の顔を見るとほとんどの人がtaと聞こえたという実験によって明らかになりました。
この実験はMcgark,Mcdonald(1976)によります。
このように複数モダリティ(複数の感覚、知覚情報)から異なる刺激が与えられると聴覚は視覚から干渉されるという効果です。

9-9.furthermore

一応主な聴覚効果を概説しました。
しかしこれ以外にも聴覚効果はたくさんありますので、思いつく限りの項目を箇条書きして、これを読んでくださる方に調べていただければと思います。


聴覚フィルタ、臨界帯域
音響情報圧縮符号化
中枢性マスキング、情報マスキング
ミッシングファンダメンタル
オクターブ類似性、無限音階、ピッチシフト
シャープネス、協和性
連続聴効果
立体音響、両耳間交代、両耳マスキング

この記事が気に入ったらサポートをしてみませんか?