見出し画像

「スピーカーフォンはエコーキャンセリング性能で選ぶ」- Web会議の“音”の基礎知識とマイクの選び方 (2) 同じ部屋から複数名で会議に出る場合

 Web会議のためのマイク選び、3回シリーズの2回目である。1回目は、自室などから一人で会議に出席する場合のマイク選びについて紹介した。2回目の今回は、気をつけないと容易に品質が低下しがちな、同じ部屋から複数名で会議に出席する場合についてである。実は、現代の音響機器の技術では、複数名の音をクリアに拾いつつリモート先の出席者との円滑な議論をおこなえる環境をつくるというのは、それなりにチャレンジングな要求である。このあたりの知見について、技術的な原理原則を解説しつつ、現実的なソリューションも含めて紹介していきたい。なお、この記事は市販製品のレビュー記事ではないので、概念の解説や注意点の説明などが主となっている点をご理解いただいた上でお読み頂きたい。
(※ 公開から1年近く経ちましたので無料化しました。[2022年12月24日])



0. Web会議のシチュエーションの分類

 まず、1回目の記事でも紹介した、Web会議の形態の分類を表1として再掲しておく。

その場所(自分の声が聞こえる範囲)にいる参加者の数と、スピーカーから音が出せるか(すなわち、周りにその会議には参加していない人がいるかどうか)の組み合わせ。(a)が自分だけで音が出せる、(b)が複数の参加者がいて音が出せる、(c)が自分だけで音が出せない、(d)が複数の参加者がいて音が出せない、場合の説明。
表1: 同じ場所にいる参加者の数とスピーカーから音が出せるかによって使うべき装置は変わる。

今回は、この表のうち、(b)のシチュエーション、すなわち、同じ場所に複数の参加者がいて、スピーカーから音を出して会議をおこなうパターンについて説明する。なお、(a)については前の記事を、(c)については次の記事(まだ公開していない)を参照していただきたい。


1. 集音の大原則

 まず、音を収録する際の大原則について紹介しておく。前回の記事に引き続き、極めて当たり前のことを書くが、まずはぜひとも頭の片隅に留めておいて欲しい事項である。それは、
 「音源の近くにマイクを設置する」
ということである。またそれか、と思われただろうが、これが一番大事なのだから仕方が無い。ニュースでもドキュメンタリーでも映画でも、アナウンスやセリフは話者のすぐ前で収録するのが基本である(少し離れざるを得ない場合はショットガンマイクといった極めて指向性の高いマイクで収録するか、そもそもスタジオでオフレコで収録する)。であるにも関わらず、今回のテーマではWeb会議のケースではそれが実現困難であるから困るのである。放送局でもやっていないことを専門家のいない会議室でやろうというのだから、ある程度品質が落ちるのはこれは諦めて受け入れるしかない。まずはそのことを理解して頂きたい。

 というわけで、理想的な集音方法はこんな感じだろう(図1)。

複数名の音声を集音するために理想的な構成の説明図。話者3人が円形状に座っている。中央に「全参加者に聞こえるように設置したスピーカー」が置かれている。マイクは全員それぞれのの口元に一本ずつ置かれており、これが全てミックスされて、エコーキャンセルを通した後に相手に送られる。
図1: 複数名の音声を集音するために理想的な構成。

この環境が構築できるのであれば、迷わずこの構成にするのがよい。もちろん、自前でマイクを複数本用意して、ミキサーあるいはネットワーク環境も用意して・・・というのでもよいが、もっと簡単な方法があるので、本題からは外れるが少し紹介しておく。
 答えは簡単で、そのものズバリ、複数のマイクロホンの接続に対応しているWeb会議用システムを導入することである。例えば、YAMAHA であれば YVC-1000 というモデルが複数のマイクの接続に対応している(上記の図1の構成がほぼそのまま実現できる)。筆者自身は使用経験が無いが、下位モデルの性能を見る限り、品質の高い会議が実現できると予想する(エコーキャンセリングの世代は一つ古いとのことだが、特に悪い話も聞かない : 歯切れの悪い話で恐縮だが、ここは本題ではないのでご容赦頂きたい)。Logicool の RALLY PLUS もマイクの増設に対応している。いずれもそれほど法外に高価な物でもないので、大きめの会議室などにはこれを導入しておくと安心である。いずれにせよ、このように話者ごとにマイクロホンを用意するのが全ての基本であることは認識しておいて欲しい。

 なお、当然のことながら、マイクロホンの近くで雑談をしたり大きな音でキーボードを叩いたりしてはいけない。当たり前のことではあるが、特にマイクロホンが2個以上になった場合に凡ミスを犯しがちであるので、常にマイクロホンがどこにあるかを意識しておきたい。そうすれば、せっかくマイクが複数個あるのに話者だけがマイクの近くにいなかった、という勿体ない事態も避けられる。マイクロホンのことを意識しなくてもちゃんと必要な音だけがクリアに拾われるというのは、残念ながら現代の技術では幻想である(もちろん専任のスタッフがショットガンマイクを持ってあなたを追いかけているなら別だが)。
 また、最近は少なくなっているかもしれないが、もしプロジェクターを机に置いて利用しているなら、マイクは極力遠ざけなければならない。プロジェクターはかなりの騒音源であるので要注意である。ヒトの聴覚はとてもよく出来ているのでプロジェクターの大きな音ですらすぐに意識の外へ追いやってしまえるが、マイクロホンにとっては天敵である。
 加えて、室内の換気用のファンなどが机に置いてあったりする場合、その風が直接マイクロホンに当たることも避けなければならない。風量にもよるが、意外と弱い風であっても「ボコボコ」といったノイズが入ってしまい、会議の品質が大幅に低下する。どうしてもマイクとファンとの位置関係が調整できない場合は、数cm程度の低いものでも良いのでファンとの間についたてを立てるというのも一つの手である。


2. 個別マイクロホンが用意できない場合の次善の策

 さて、ここから本題。
 以上のように、話者それぞれにマイクロホンが用意できればベストなのであるが、なかなか全ての会議室に配備するのは難しい。また、そもそもマイクロホンが設置されていないオープンスペースなどで会議を実施することもあるだろう。その場合に、次善の策として選ばれる(選ばざるを得ない)のが、“スピーカーフォン” などと呼ばれる、マイクロホン内蔵のスピーカーである(ヘッダ画像に写っているようなもの)。この時の構成を図2に示す。

複数名の音声を集音するための次善の策の図。先ほどの図1と同じように、3名の参加者が円形状に並んでいる。そして、中央に一代の「スピーカーフォン」が置かれているだけのシンプルな構成である。
図2: 複数名の音声を集音するための次善の策。

この構成は非常にシンプルなのであるが、問題が大きく2つある。
 問題の一つは、どうしても話者からマイクまでの距離が遠くなる、という点である。前回の記事でも再三書いたように、マイクまでの距離が遠くなると収録音が劣化する(外来ノイズや残響の比率が増える)。残念ながらこれはどうしようもなく、できる限り静かで残響の少ない部屋で、できる限りマイクに近づいて、できる限りゆっくりはっきり喋りましょう、という方法しか解決策がない。このとき、一人の話者が長く話す場合などには、その話者の近くにマイクロホンを移動させて話す、というのもかなり有効である(後述のようにエコーキャンセリングの動作を考えると本来は会議中にはマイクロホンを移動しない方が良いが、一定時間以上発話するのであればそのデメリットは相殺されると考える)。
 もう一つの問題は、スピーカーとマイクとの距離が極めて近いために、スピーカーから再生した音(リモート先の人の声)がそのままマイクロホンに大きく入ってしまう、という点である。しかも、悪いことに、スピーカーフォンは周囲360°の音を拾う設計になっていることがほどんどであるので、マイクロホンは無指向性であることも多い(もちろん指向性マイクを複数搭載している機種も多い)。そういう劣悪な集音環境であるので、ボリューム設定にもよるが、その場にいる話者の声よりもリモート先の人の声の方が大きく集音されても不思議ではない。しかしながら、これをリアルタイムに適切に除去できない限り、リモート先にリモート先の人の声が大きく返ってしまい、会議が全く成立しなくなる(これを “エコー” と呼ぶ)。スピーカーフォンは、あの小さな筐体の中で、結構大変な仕事を遂行しているのである。そして、大変であるが故に、その仕事のクオリティーの優劣の差も大きいので、機種選定が重要になってくるわけである。なお、この「仕事」のことを “エコーキャンセル(あるいは、エコーキャンセリング、エコー除去)” と呼ぶ。それでは、エコーキャンセルについて、次章で詳しく解説していこう。
(具体的は機種の紹介は末尾の付録に記しているが、まずは原理原則をご理解頂くことが最終的にはWeb会議品質向上への近道だと考えるので、しばらくお付き合い願いたい。電子機器でも古くからの道具でも何でも、基本原理を知るだけでその道具の使い方は自ずと変わるはずである。)


3. エコーとエコーキャンセリングの基本原理

 まず、エコーキャンセリング機能がなかった場合について考えよう。もし、スピーカーフォンがマイクロホンで集音した音をそのまま出力したらどのようになるかを示したのが図3である。

エコーキャンセリング機能が無かった場合の音の流れの模式図。PCからスピーカーフォンの内蔵スピーカーに送られた音声がそのまま再生され、内蔵マイクで拾われる。この音には、内蔵スピーカーから再生された音と、周囲の机やPCなどで反射された音と、自分の声とか含まれる。これらが混ざった音が、そのままPCを介して、相手に伝わる。これがエコーである。
図3: エコーキャンセリング機能が無かった場合の音の流れ

赤い線がリモート先の相手の声、青い線が自分(同じ場所にいる参加者)の声をあらわしている。図に示す通り、スピーカーから再生された相手の声は、そのままダイレクトにマイクロホンに入ってしまう(図中に「直接音」と書いている経路)ものと、さらに、机や周辺に置いてあるPCなどに反射されてマイクロホンに入るものもある(図中「反射音」)。これらがそのまま相手先に戻っていき、エコーとなる。
 まず、この “エコー” は、聞いている第三者にとっては「あ、同じ音が2回聞こえたな」程度で済ますこともできるのだが、話す側には重大な影響を及ぼす。読者の中には、2012年のイグノーベル賞に輝いた「SpeechJammer」のことを覚えておられる方もいらっしゃるかもしれない(解説記事:栗原ら、2013)。このシステムは、数100ミリ秒程度の時間遅れを伴った本人の声を離れた場所から指向性スピーカーで再生することで、その話者の発話を阻害するというシステムである。特に難しい処理をしているわけではなく、単に時間遅れのある声を本人に聞かせるだけで、その人はたちまち話せなくなるのである。Web会議でエコーがあるとこれと同じことが起きてしまうので、慎重に避けなければならない現象である。そして、都合の悪いことに、現代のWeb会議システムの遅延時間は数100ミリ秒程度であることが多く、会話のジャミングに極めて有効(!)なのである。そのため、スピーカーフォン側でもWeb会議システム側でも、あの手この手でできる限りエコーが返ってしまわないように工夫を凝らしているわけである。
 また、エコーにはもう一つの重大な弊害がある。エコーが発生した時、普通にエコーとしてその音が話者に戻る場合もあるが、Web会議システムなどによってはエコーの発生源側の音声が一時的にミュートあるいは音声が劣化するような動作をする場合もある。すなわち、その瞬間だけは自分の声が相手に届かなくなるのである。Web会議中に発話が衝突した時(2名以上が同時に喋った時)にどちらかの声が途切れ途切れになってしまう現象を経験されたことがあるだろう。あれは、その瞬間にエコーキャンセリングが破綻しているために発生している現象である(そもそも同時発話を許容しない陳腐な設計のシステムは除いて)。もしも完璧なエコーキャンセリングがあれば、全ての話者が口々に同時に話しても全く問題無く会話が継続されるはずである。ただし、もちろん現実的には色々と制約があるわけで、この理想環境にいかに近づけるかが課題なのである。

補足-1】稀に誤解されている場合もあるが、エコーの中身は純然たる人の声であり、「ノイズキャンセリング」機能では除去できない(広義にはエコーもノイズであるが、通常はノイズとは言わない)。もちろんノイズキャンセリング機能にも色々あるが、それらは、人の声ではないと思われる成分を消したり、音が小さな部分を無音にしたり(“ノイズゲート” あるいは単に “ゲート” などと呼ぶ場合もある)、機種によっては残響成分をほんの少し除去したりする(リアルタイム動作で残響成分が劇的に除去できるものはまだ実現できていないようである)ものであり、既にマイクロホンで集音されてしまった人の声を消すことはできない。もし、ノイズキャンセリングとエコーキャンセリングをごちゃ混ぜにして紹介しているような機種があったら、そんなものは問題ではないくらいによほど性能に自信があるか、あるいは単なる粗悪品かのいずれかであるので、購入には慎重になった方が良い。

【補足-2】エコーのことを “ハウリング” と表現している例もあるが、これも誤りである。ここで言うエコーは、山びこ、あるいはオウム返しのように、遅れて一度だけ到達する音のことである。対するハウリングは、カラオケでマイクをスピーカーに向けてしまったときに聞こえる「キュイーーーン」というアレである。これは、「スピーカーから出た音→マイクで拾われる→スピーカーでまた再生される→再びマイクで拾われる→・・・」のループがあって初めて成り立つ現象であり、エコーとは全く異なる現象である。その意味で言うと、同じ部屋にいる人が同じ会議に参加して2名以上がスピーカーをONにしてしまったときに聞こえる現象(ふわ~んふわ~んふわん~と、宇宙人が来たような音が鳴ることがある、アレである)は、「Aさんのスピーカー→Bさんのマイク→Aさんのスピーカー」のループが発生しているので、ハウリングと言ってもよいだろう(通常はかなりの遅延があるのでカラオケの時の「キュイーーーン」のような音にはならないが)。あるいは、同じ部屋にいなくても、2人以上からエコーが返ってしまった場合にも同じような現象が起きうる。

 次に、装置にエコーキャンセリング機能が搭載されていた場合の音の流れを見てみる(図4)。

エコーキャンセリング機能が搭載されていた場合の音の流れの模式図。PCから送られた相手の声はスピーカーフォン内蔵スピーカーで再生され、直接音や反射音が埋蔵マイクで集音されるところまでは図3と同じ。異なる点は、PCからの再生音の情報を用いて、内蔵マイクから入った音からエコー成分を除去する機構が入っている点である。この機能により、エコーが相手に戻ることがなくなる。
図4: エコーキャンセリング機能が搭載されていた場合の音の流れ。

先ほどの図3との違いは、画像中央の赤枠の部分、「同じ成分を除去」と書かれている部分である。ここで注目すべきは、図中の赤の点線である。これは、入力信号(スピーカーとして見た場合には再生信号)をそのまま装置の内部でエコーキャンセル処理に利用(流用)していることを示している。すなわち、スピーカーからの再生信号を予め知っておき、その情報とマイクロホンで集音された信号と比較することにより、エコー成分を見つけ出して(推定して)いるのである。この「再生信号を予め知っておく」という機構ナシではエコーキャンセルは成り立たない。わかりやすく言えば、カンニングしないとエコーキャンセルは実現できないのである。このために、例えば、外付けのスピーカーホンから音を再生している状態で、マイクロホンを誤って PC 内蔵のものに設定してしまったりすると、カンニングできなくなって、その結果、エコーキャンセルが全く機能しなくなるのである。
(なお、この「エコー成分を見つけ出す」処理の中身については5章で述べる。)


4. エコーキャンセリング性能差を体験する

 さて、それでは、エコーキャンセリング機能が実際に機能している様子を体験して頂こう。次の動画は、スピーカーフォンを2台並べて設置して、それぞれのスピーカーから音楽を再生し、それぞれのマイクロホンで収録した音がどのように処理されるかをテストしたものである。1のスピーカー→1のマイク、1のスピーカー→2のマイク、2のスピーカー→1のマイク、2のスピーカー→2のマイクの順にテストしている。音楽の再生音量はほぼ同等(耳元での等価騒音レベルが 60 dB 程度)になるように調整した。発話は、2つのスピーカーの中央付近でおこなった。なお、スピーカーそのものの周波数特性の差による不公平を避けるため、音楽にはカットオフ周波数 120 Hz のハイパスフィルターを掛けて再生した。

いかがだっただろうか。それなりに大きな音で音楽を再生しているが、いずれの機種とも、音楽を完全に除去することには成功していることがわかると思う。1→2、あるいは、2→1のパターンを聞くとかなり大きな音で音楽を再生していたことがわかると思うが、これが1→1、あるいは、2→2のパターンだと完全に消えている。もしかすると、除去が完全すぎて、一体なにをテストしてるのかがすぐには解らなかったという方もいらっしゃるかもしれない。
 ここまでで言えることは、いずれの機種も、「エコーを返さない」という点では充分な性能を有している、ということである(周辺の反射体が移動した場合については後述)。つまり、これらの機種を使えば、Web会議において、少なくとも自分が原因で他の人の会話を邪魔をすることはなくなる、ということである。ただし、そこまでは良かったのだが、自分の声がどれだけ相手にきちんと届けられるか、については大きな性能差があった。1番のスピーカーフォン(1→1のパターン)では、音質の劣化は大きいものの、発話の内容は一応問題無く聞き取れるレベルだったと思う。これに対し、2番のスピーカーフォン(2→2のパターン)では、かろうじてそれが音声であることくらいはわかっただろうが、発話の内容はほとんどわからないレベルにまで途切れ途切れになってしまっていた(完全に消えていたわけではないので一応どうにかエコーキャンセリングを頑張ろうという設計思想ではあるのだろうが、その品質には不満が残る)。これはすなわち、2番のスピーカーフォンでは、相手の発話と自分の発話がバッティングしてしまったときに、自分の音声が相手に届かない可能性が高いことを意味している。カタログに「エコーキャンセリング機能搭載」と書かれているからといって、その性能までは担保されない。この機能の意味を理解せずに、スピーカー単体の音質やマイクロホン単体の音質ばかりを評価していても、実際の会議で快適に利用できるかどうかの判断材料にはならないので要注意である。

【補足-3】1本目の記事でも書いたが、ほとんど発言しない、あるいは指名されたときにしか発言しない、という会議であればこの2番の機種でも問題無い(むしろ2番の方がスピーカー単体としての「音質」は良い)。だが、それは真の会議ではないと筆者は考える。そもそも、技術的制約によって参加者全員が任意のタイミングで積極的に活発に発言できない(させない)運用しか許容されないというのは、音響に携わるエンジニアとしての敗北である。もっと自由な会議が技術的に可能なのであるからみなさんにはぜひそれを知っていただきたい、と思ってこの記事をエラそうに書いているわけである。念のために補足しておくが、もちろん相手の発言に被せていくようなスタイルを推奨しているわけではない。それは推奨しないが、残念ながら現在のWeb会議システムにはかなり大きな遅延があり、避けようと思っていてもどうしてもバッティング(同時発話=“ダブルトーク”)が発生する。バッティングが発生するたびに声が消えてしまっていては、活発な議論ができなくなる。この萎縮を避けるために、万一同時に発話してしまってもしっかりと音を届けることのできる音響システムを選択するのが肝要なのである。

補足-4】最近のWeb会議システムは非常に優秀なものが増えており、ユーザー側でどれだけ大きなエコーを返そうとも、システム側でほとんど完璧に除去されるものもある。確かに、そういうシステムを使うのであれば、ユーザーが利用する機器のエコーキャンセリング性能は低くても良い。ただし、ここで注意深く考えて頂きたいのが、そのWeb会議システムを使っているときに、もしも先ほどテストした2番の機種を使っているとどうなるか、である。せっかくWeb会議システムがエコーを完璧に除去しようと待ち構えていても、2番の機種はそもそも自分の音声を相手に送信してくれない。すなわち、こんなことなら何も考えずにスピーカーとマイクをバラバラに設置して、何の処理もしない状態でWeb会議システムに流し込んだ方が断然マシである。その意味でも、性能の低いエコーキャンセリング機能を搭載した機器は避けるべきである。
 他方で、まだまだエコーキャンセリング性能が低いWeb会議システムも残っている。酷いモノになると、はなからエコーキャンセリングを諦めて、同時通話そのものを許さないという設計のものまである(誰かが話している時に他の人の音声を抑圧するという動作。これは “エコーサプレッサー” と呼ばれる動作であり、広義の “エコーキャンセラ―” ではあるものの、最善のものではない。これではもはや会議システムというよりはトランシーバーに近い)。さすがにそこまで酷いシステムの場合はユーザーがどんな優れた機器を用意しても無駄であるが、そこまで悪くは無い場合にはやはりユーザー側での適切なエコーキャンセル処理が重要となってくる。

補足-5】ご自身がお持ちのスピーカーフォンのエコーキャンセリング性能を簡単にテストする方法をご紹介する。単に、ご自身のPCで音楽を流しながらWeb会議に出席してみればいいのである(別に音楽でなくてもYoutubeでも何でも良いが)。そして、音楽を流している間にご自身の音声だけが問題無く届いているかを相手に尋ねればよい。あるいは、ボイスレコーダーのようなソフトウェアを使ってご自身の声を録音してみても同じことである。特別なソフトウェアを用意せずとも、簡単にテストすることができる。(会議で試す場合はもちろんダミーの会議で実施して欲しい。本番の会議で試して何らかのトラブルが起きても筆者は責任を取れない。)


5. エコーキャンセルを正しく動作させるために注意すべきこと

 さて、良い機種が選べたとして、次に、その機器に備わっているエコーキャンセルの能力を最大限引き出すために知っておいて欲しいことを述べる。
 説明のために図4を再掲する。

図4の再掲。
(再掲)図4: エコーキャンセリング機能が搭載されていた場合の音の流れ。

前述の通り、エコーの原因となるのは、直接スピーカーからマイクへと向かう「直接音」と、机やPCなどの反射体で反射されてマイクに向かう「反射音」の2つがあった。このうち、直接音の伝わり方については、周りの環境に左右されるものではなく、その機種に固有で変化しないものである。従って、そのスピーカーフォンのメーカーが予め適切に設定しておきさえすれば、除去はそれほど難しくはない。問題となるのは「反射音」の方である。スピーカーフォンを机に置き、みんながノート PC を開き、人が椅子に座れば、それだけで立派な反射体となってしまう。そして、この状況は、会議の度に毎回変わるし、さらに会議中にも刻々と変化する。
 スピーカーフォンは、実はこの反射音も必死に除去しようと頑張っていることをまずは知っておいて欲しい。機種によって更新頻度は大きく異なると聞くが、スピーカーフォンは、どういう反射音が戻ってきているかを一定時間毎に解析し、それを最大限除去できるように内部のパラメータを常に変更し続けているのである。この仕組みを「適応型エコーキャンセラー」などと呼ぶが、このパラメータ更新の頻度と速度と精度(すなわち、どれだけ正確に素早く “適応” できるか)がエコーキャンセリング性能を左右する。例えば、周辺環境が変化しない限りはほぼ完璧にエコーが除去できている機種であっても、すぐ前に反射体(タブレットや書籍など)を持って行って動かすとエコーが少し発生することがある。

 このような装置の「適応能力」に頼るのも一つの戦略だが、そもそも反射音を極力マイクに戻さないようにするに超したことはない。そのためには、まずは、スピーカーフォンの周囲に物を置かないことが重要である。スピーカーフォンは PC のモニターのすぐ後ろなどに置きがちであるが、これはあまり良くない。できれば、参加者の全ての PC やその他の物品からも離して、かつ、全員からの距離が均一に近くなるような位置に置くのがベストである。もし、そのような場所が存在しなければ、PC などを動かしてベストなポジションを用意する。一手間掛かるが、会議環境の改善を考えると、それだけの価値がある行動である。ただし、その際に、 PC のモニターなどで口元からマイクまでが直接見通せなくなってしまうと自分の声が拾えなくなってしまって本末転倒であるので、誰からも見える位置に設置する。そして、会議中にもスピーカーフォンの上に書類を置いたりしないように気をつける。それでもなお、内外のノイズや残響成分が入るので、対面の時よりもゆっくりはっきり話す。これでかなり会議環境は向上するはずである。

補足-6】「ゆっくりはっきり」話すことについて、そんなことは当然だと思われるかもしれないが、議論が白熱してくると忘れがち(優先度を下げがち)であるので、いくつかのデータを示しておこう。会議に熱中している時に、ふと思い出して頂ければ幸いである。
 前回の記事にも書いたが、まず、残響があると、仮に明瞭度(音声が正しく聞き取れるかどうかの正答率)が低下しない程度であっても、“聴き取りにくさ” という主観的な指標はセンシティブに低下する(例えば : 佐藤ら、2007)。また、高齢者ほど残響あるいは騒音の影響を受けやすいことも示されており(例えば : 佐藤ら、2002)、加齢に伴う明瞭度の低下も無視できない。この解決手段として、残響がある環境下であっても、話速(発話するスピード)を落とすことで、聴き取りの正答率が上がることが示されている(例えば:Arai et al., 2007)。
 この施策が実践されているわかりやすい例の一つが空港でのアナウンスであろう。「○~○~航~空~、△~△~便~で~×~×~へ~ご~出~発~の~お~客~様~は~・・」とゆっくり話しているアレである。空港というスペースは極めて広い空間であり、残響時間が非常に長い。そんな悪環境の中で便名や搭乗口の番号などの情報を正しくできるだけ多くの人に届けようとすると、ゆっくり話すのが一番である。さすがにこれは極端な例で、Web会議で空港のような残響時間があるということはないだろうが、そのかわりにマイクやスピーカーの品質が劣悪であることが多い。そんなケースを想像して、明日の会議では今日までよりもほんの少しゆっくり話すように心掛けてみられては如何だろうか。


6. エコーキャンセリング性能に頼らない、エコーを減らして自分の声をきちんと届ける方法

 最後に、もう一度エコーが戻る経路を整理しておきたい。以下の図5は、図4とほとんど同じだが、ローカルの環境に加えて、Web会議システムまでを含んだ図である。

Web会議システム利用時に、相手の声がエコーとして相手に戻るまでの経路を示した模式図。経路の順は、相手、Web会議システム、PC、スピーカー、直接音と反射音、マイク、PC、Web会議システム、相手、の順である。
図5: 相手の声がエコーとして相手に戻るまでの経路。

この図の(4)がマイクロホンで集音された音であり、ここに含まれるエコーを減らす手法についてこれまで説明してきた。
 しかしながら、エコーを減らす手段はここまで述べてきたものだけではない。また、充分に優れたエコーキャンセリング性能を持っている機種であっても、あらゆる条件で完璧に自分の声だけをクリアに拾ってくれるとは限らない。どのような機種を使用するときにも、以下のポイントに気を付けるだけでWeb会議品質を向上することができる(エコーを減らし、かつ、自分の声をきちんと相手に届けることが出来る)と思うので紹介する。

  • 図5の(2): エコーの原因となる音を減らす: そもそも、相手の声を小さくすれば比例してエコーも減るし、相手に送られる自分の声の品質も向上する。したがって、できる限り相手の声のボリュームを絞ることがまずは重要である。いくら優秀なエコーキャンセリング機能も、相手の声は最大音量で再生しながら、小さな自分の声を拾う、といった条件ではさすがに音質は劣化する。また、再生音量が大きい場合には、アンプやスピーカーの歪みが発生することもあり、これがエコーキャンセリング性能の大幅な低下を招くこともある。このため、相手の声は、必要最低限まで小さくして再生するのがよい。なお、当然ながら、これは会議室外への音の漏れ出しも低減することになるので、一石二鳥である。なお、もしも相手の音声に残響が多く含まれていたりノイズが含まれていり、あるいは発話が不明瞭だったりする場合は、聞き手側ではどうしても再生音量を上げざるを得なくなり、悪循環となる。この意味でも、お互いに充分な品質で音声を届けることも総合的なWeb会議体験を向上するために重要であることも再確認しておく。

  • 図5の(3): 次に、相手の声が自身の部屋内で反射してマイクに入ってしまうことを防ぐ方法についてもう一度まとめておく。まずは、前述の通り、マイクの周辺にPC などの大きな物を置かないことが重要であるが、それと同じくらい重要なのが、会議中にマイクの周辺の物体を動かさないことである。マトモなエコーキャンセリング性能を備えたスピーカーフォンは、適応型エコーキャンセリング機能を持っている。これは、刻々と変化する部屋の反射を常にモニターし、エコーが最小になるようにパラメーターを調整し続けている。この機能を適切に機能させるために、マイクの近くいきなり反射体を置いたりしないことが重要である。例えば、相手の発言中にマイクを動かしたり、タブレットなどをマイクの近くに立てたりするのは避けた方が良い。(どうしてもマイクを動かす場合は、ミュートにした状態でおこなえば相手にエコーが返ることはなくなる。)

  • 図5の(4): エコー成分に対して自分の声の比率を増やす。これは再三記しているように、とにかくマイクの前でマイクの方を向いて話すことで実現可能である。

  • 図5の(5): Web会議システムに備わっているエコーキャンセリング機能も向上してきている。これを適切に機能させるのも有用である。そのためには、ローカル(自分)側の環境を極力変えないことが重要である。例えば、自身の環境でエコーが大きく返ってしまっていたとしても、多くのWebシステムではある程度はそのエコーを除去してくれる。ただし、いきなりミュートを解除したりすると適応型エコーキャンセリング機能が適切に働かずに、しばらく(数分の1秒から1~2秒程度?)の間大きなエコーが返ってしまうことがある。また、反射体を動かしたりするのも同じ現象を引き起こす。やむを得ずWeb会議システムのエコーキャンセルに頼るときは、できる限り環境を変化させないことを心掛けたい。


7. まとめ

 この記事で述べてきた内容をまとめておく。

  • スピーカーフォンはエコーキャンセリング性能が高い機種を選ぶ

  • スピーカーフォンの周辺には極力反射体を置かない/動かさない

  • 相手の声の再生音量は必要最小限に絞る

  • マイクの近くで、マイクの方を向いて、ゆっくり明瞭に話す

今回も非常にシンプルに、これだけであった。しかしながら、これだけで本当にWeb会議品質は向上するはずであるので、ぜひ実践して頂きたいところである。

 シリーズ最終回となる次回は、オフィスなどでヘッドホンを用いてWeb会議に出る際について記す。


付録:市販のスピーカーフォン4機種の性能比較

 付録として、参考までに、市販のスピーカーフォンのエコーキャンセリング性能と、マイクロホンの音質比較をおこなったので紹介しておく。

 まずは、エコーキャンセリング性能の比較である。今回テストした機種は、

の4モデルである。いずれも国内で普通に手に入るものである(全て私費で購入したものである。筆者はいずれにメーカーとも利害関係にはない)。
 各スピーカーフォンからは、想定される耳の位置(正面斜め上 0.5 m の位置)で基準音が等価騒音レベル 54 dB となるように音声を再生し続けている(レベル調整は音声と LUFS を揃えた 700-1400 Hz のオクターブバンドノイズ(48dB/oct.)を基準音として実施)。 録音は、同じく正面斜め上 0.5 m の位置から、マイクロホンの位置で等価騒音レベル 60 dB となるようにモニタースピーカーから音声を再生して収録した。(平たく言うと、「できる限り公平に評価したつもり」ということである。)

一聴して解るとおり、音声が途切れずに収録できている機種と、途切れ途切れになってしまっている機種があることがわかるだろう。YAMAHA YVC-200 と Anker PowerConf S3 は、音声が途切れていない。この4機種の中から、少なくとも静的なエコーキャンセリング性能で選ぶのであれば、この2機種を選ぶことになるだろう。

 なお、動的なエコーキャンセリング性能(適応型エコーキャンセリング機能)も簡単にテストしたが、Anker PowerConf S3 は稀にエコーが返ることがあった(その場合もすぐに収束するが、でも「音声のエコーが返ったな」というのが解る程度には収束に時間が掛かる場合がある印象であった)。これに対し、YAMAHA YVC-200 は、一瞬「プツッ」という感じの音が返ることはあったものの、それが音声であることがわかるほど長くは続かない印象で、よりパラメータの収束が早いことが窺える。すなわち、YAMAHA YVC-200 の方がよりラフに扱っても事故は起きない万人向けモデルであると言えるだろう。しかしながら、Anker PowerConf S3 も気をつけて使用していれば特に問題は起きないと推測される性能は有しており、ここまでこの記事を読んで下さったみなさんであればどちらを選んでも充分に使いこなせるだろう。(Anker PowerConf S3 は、その価格を考えると驚異的な性能である。さらに、モバイルバッテリーとしても使えて、鞄に入れておく一台としてとても便利である。)

 次に、マイクロホンの性能の比較である(これは純粋なマイクとしてのテストであり、上記のテストでエコーキャンセリング性能が低かったものも含まれるので注意して頂きたい)。テストとして、話者とは別の方向から生活音が鳴っている状態を模擬したパターンも含めてある。配置を図6に示す。

マイクロホンの性能テストをおこなった時に測定システムの模式図。机にスピーカーフォンが置かれており、手前側斜め45度、距離0.5メートルのところに発話音を再生するスピーカーが斜め下向きに設置されている。また、左側1メートルのところには生活音を再生するスピーカーが置かれている。
図6: マイクロホンの性能テストの測定系。

 テストしたのはさきほどの動画と同じ4機種で、YAMAHA YVC-200Anker PowerConf S3Jabra Speak 510eMeet Luna の順で、それぞれ、前からと後ろからの二度ずつ収録している。ついでに、オマケとして、前回の記事で紹介した小型 USB マイク SAMSON GO MIC を用いて、オンマイク(音源のすぐ前)で収録した音も最後に掲載しておくので、筆者がこれだけ「マイクのすぐ近くで話すべし」と連呼している意味を感じて欲しい。

お聞きになってわかる通り、4つのスピーカーフォンの音質はどれも五十歩百歩といったところで、悪くは無いが良くもない、といった結果である。オンマイクでの集音に比べると、どれも劣化が大きい。強いて言えば、この中では Jabra Speak 510 と eMeet Luna の音質が比較的優れていたようにも思える。しかしながら、この2機種はエコーキャンセリング性能がそれほど良くないため、Web会議での利用には注意が必要である。
 加えて、機種によって、音声以外の信号が入った時の挙動が異なることがわかる。継続して音楽が鳴っているような場合、しばらくするとその音が抑圧されるような挙動をする機種が多かった。また、eMeet Luna の Voice IA という機能を ON にすると、ノイズのみの区間ではかなり良くノイズ除去が働いていることがわかる。しかしながら、残念ながら音声に重畳したノイズには無力であることもわかる。今回テストした全機種において、音声に重畳したノイズを除去出来るものはなく、できる限り静かな環境で会議に出席しなければならないことがわかる。あるいは、各Web会議システムに搭載されているノイズ除去機能や、NVIDIA Broadcast のような専用のノイズ除去ツールの併用も検討されるとよいだろう(詳しくは1本目の記事を参照)。

 話ついでに、今回の記事とは関係ない余談をひとつ。これはおそらくほとんど知られていない裏技だと思う(おそらくメーカーのサイトにも書かれていない)が、実は YAMAHA YVC-200 はイヤホン端子に接続した外付けスピーカーに対してもエコーキャンセルがかなり良く働く(ちなみに、PowerConf S3 も試したが残念ながらそういう動作はしなかった)。現在発売されている市販品で、この価格帯では唯一無二ではないだろうか(まもなく発売予定の Roland UVC-02 にもエコーキャンセラーが入るようで、筆者は今から心待ちにしているくらいである)。何ミリ秒まで対応しているのかは調べていないが、おそらくエコーキャンセラーのパラメータとして決め打ちの値を一切持たないフレキシブルな実装で、かつ、取り得る値の範囲(調整幅)に余裕があるのだろう。キャンセル性能自体は内蔵スピーカー使用時よりは少し劣るようだが、そもそも外付けスピーカーはマイクから遠い位置に設置することができるため、充分に実用的である。たまには、スピーカーフォンを自宅のオーディオシステムなどに接続して会議に出てみられるのは如何だろうか。(ただし、YVC-200 は L チャンネルの音しか出ないので、R チャンネルのスピーカーも一緒に鳴らすためには変換ケーブルが必要ではある。ついでに言うと、この機種はそもそも L チャンネルの音しか鳴らしてくれない不思議設計なので、ステレオ音源を入れる時も要注意。)

(最終更新:2022年2月6日 20時00分 / 2022年12月24日 無料記事化:リンクがアフィリエイトになっている場合があります)

関連記事:

https://note.com/nagataniyoshiki/n/nebd39326d046


この記事が気に入ったらサポートをしてみませんか?