見出し画像

ただ HRTF をかけるだけでは立体音響にならない 7 の理由

昨今では HRTF を使用した立体音響化というのは割と一般的なものになってきているように感じますが、その表現に満足できているでしょうか?

また、何か足りない!と感じるなら、その理由を考えてみたことがあるでしょうか?

本稿ではちょっと物議を醸すのを覚悟で、現状の HRTF の使用に関してよくある落とし穴を 7 項目に分けて掘り下げます。なるべく専門知識を必要としないように気をつけてはいますので、肩の力を抜いて読んでみてください。

もちろん否定をするのが目的なのではなく、落とし穴をきちんと知ることで、それを乗り越えるオーディオ技術の発展に寄与できればと考えます。

次項から、さっそく各項目の解説にはいります。項目の順序としては概ね影響の大きい課題が先になるように並べています。


(1) 「デザインされた SFX」は「音源から発生した音」ではない

HRTF は「音源から発生した音」が左右それぞれの耳に届く際にどのような変化をするかを IR で表したものです。つまり、これを使用して現実の左右の耳に音が届いている感覚を得るためには、「音源から発生した音」に HRTF を適用したものを聞く必要があるはずです。

画像2

「音源から発生した音」なのですが、これを直接聴くことは日常の中ではまずありません。無響室で録音した音源はそれに近いものになりますので、Youtube などで検索 (例えば anechoic balloon) するなどして聴いてみると、どんな音か理解しやすいです。その普段聴いているものとは違う迫力に欠けた音に驚くことと思います。

一方、HRTF のよくある使い方として、普通に作られたゲームなどの SFX にその音源方角の HRTF を適用する例があると思います。

この場合は、「デザインされた SFX」に対して HRTF をかけることになります。イメージとしては、「デザインされた SFX」は「音源から発生した音」に「とある空間の響き」を足したようなものと捉えることができるので、全体でみると「とある空間の響き」が存在する分だけ本来あるべき再現との誤差があることになります。

(2) 再現するべき空間は無響室ではない

HRTF の計測には無響室や決められた広さの部屋が使われることが多いです。つまり、状況による反響音の構成などについては HRTF の範疇外です。

一方で、状況によって変化する左右の耳に別々に届く反響音の違いが立体感に影響を与えるというのは、殆ど誰も疑うことのない事実だと思います。

また、反響音は音源の移動やプレイヤー (カメラ) の振り向きなどに追従せず、発生位置と部屋の形状や材質に依存して広がります。

立体音響の文脈でこの辺りにまで踏み込む例は少ないですが、こういった挙動の再現を HRTF や既存のリバーブだけを使って行うことはできませんので、そういった部分で十分な立体感の表現になっていないケースは多いと思います。

(3) 忠実性を落としてはいけない

立体感を感じるためのもう一つの大きな要素として、忠実性が挙げられると思います。

忠実性は高解像度であることと、余計な変化が少ないことを併せ持った性質です。忠実性が立体感に重要というのは、超高解像度のモニターで高精細な動画を見たら割と立体的に見えてしまう現象と同様に考えてもらえば分かりやすいと思います。

各種の音の処理の中には、この忠実性に大きく影響を与えてしまうものが多く存在します。HRTF の適用のために使用する IR の畳み込みもそのような処理の 1 つで、HRTF 測定の都合で生まれた誤差などが忠実性を下げる要因として効いてきてしまいます。

(4) ブレンドは補間ではない

HRTF を全方位隙間無く計測してデータとして持つことは難しいため、5 度毎など角度を決めて計測したデータを使用し、間に位置する場合や移動時には 2 つ以上の HRTF をブレンドして聴かせるようなことが多いと思います。

しかしながら、このブレンドという方法は「HRTF の補間」として性質の良いものではありません。

例として、図に A と B、2 つの周波数特性と、それをブレンドした場合の C、補間として本当に必要だった D を示しましたので参照してもらえればと思います。

画像1

周波数特性だけでなく位相特性や遅延特性などで見ても同様の問題があり、「間の特性を出す」というのはとても難しい課題となっています。

(5) バーチャルスピーカーはバーチャルスピーカーでしかない

ゲームのように多数の音源を扱うコンテンツで全ての音源に対して個別に HRTF をかけるのは負荷の面などで問題になることが多く、一旦 4~16ch 程度のバーチャルスピーカーにミックスを行い、各バーチャルスピーカーを再度音源として HRTF を使用してヘッドホンステレオ化する方法が取られることがあります。

この方法は一見個別 HRTF の近似に感じるのですが、実態としては各バーチャルスピーカー位置のみの HRTF を使用し、中間位置の全てをブレンドで賄う方法になっています。(4) で挙げた通りブレンドの補間としての機能は不十分なので、大きな誤差が生まれてしまっていることになります。

(6) 正確な HRTF は測定できない

この課題に関しては、HRTF の個人差の問題と並んで言及されることが多いように感じます。(が、個人的にはこれが最重要課題とは思っていません)

HRTF の測定はいくつか方法がありますが、「発生音と理想的なインパルス音の違い」や「マイクの特性」などによって測定にはどうしても誤差が生じてしまいます。

特性の逆畳み込みでキャンセルするなどの工夫がなされることも多いですが、位相特性や遅延特性なども含めた高い忠実性が担保されるような方法は今のところ無さそうに思います。

(7) マイクは耳ではない

当たり前のことなのですが、マイクで集音するのと耳で音を聴くのは別のものです。

骨伝導音や脳の働きによる知覚の領域など、HRTF で定量化できない要素が多く存在します。

これらが立体感にどう影響するのか?は未知数なところが多いですが、少なくとも無視して絶対大丈夫!というものでは無いと思います。

おわりに

なるべく短めにしたかったこともあり、駆け足な解説になってしまいましたが、雰囲気を感じ取ってもらえたでしょうか?

「HRTF を使っているから立体音響に聴こえるはず」と思ってしまっている人や、「よく分からないけど HRTF はあんまり好きじゃない」と思ってしまってる人にもこういった考察が届いて、共通の課題認識でオーディオ技術の発展に取り組めるといいなと思っています。

本稿はほぼ独自研究によるもので根拠は弱いものとなりますが、「嘘」にはならないようにかなりの注意を払って書いております。気になる箇所がありましたら遠慮なくご指摘ください。また、書ききれていない考察も多いので、興味のある方は是非何らかの形で聞いてください。

また、今回紹介したような課題を乗り越えるようなトータルな立体音響の構築(「音響空間表現」と呼んでいます)を継続的に研究していますので、それに関してもいずれ紹介できたらと思っています。

この記事が気に入ったらサポートをしてみませんか?