『AIで「聞きたい声だけ」聞ける、ノイズキャンセリング新技術』～【web3&AI-テックビジネスのアイディアのタネ】2024.5.27

2024年5月27日 09:22

「先進テックで未来の生活はもっと良くなる！」と信じて、Web3・AI・ガジェットなどのデイリーニュースから毎日ひとつピックアップしてご紹介しています。

新規ビジネスのアイディアのタネがほしい方、未来を想像してワクワクしたい方、読んでちょっといいなと思った方、ぜひフォロー・高評価よろしくお願いします！

■AIで「聞きたい声だけ」聞ける、ノイズキャンセリング新技術

現代の生活は騒がしい。それが嫌なら、ノイズキャンセリング・ヘッドフォンを使えば周囲の音を小さくできる。ただし、無差別に音が消えてしまうため、実際に聞きたい音を逃してしまうこともある。

ヘッドフォン向けの新型プロトタイプ人工知能（AI）システムは、こうした問題の解決を目的としている。「ターゲット・スピーチ・ヒヤリング（Target Speech Hearing）」と呼ばれるこのシステムは、他のすべての音を消しても、選択した人物の声だけは残す機能だ。

AIの急速な技術進展で、かつてSF小説や映画で想像されていたことが実際に製品化されつつあります。特定の人の声だけを残して、他の声や音をノイズキャンセリング技術で消してしまうヘッドフォンの研究が進んでいるそうです。

ターゲット・スピーチ・ヒヤリングは現在、概念実証段階となっているが、開発者は人気ブランドのノイズキャンセリング・イヤホンに組み込む交渉を進めているほか、補聴器にも利用できるよう取り組んでいると話す。

概念実証（PoC）の段階としてはいますが、イヤホンメーカーに組み込み交渉できるレベルにはあるというスピード感には驚かされます。

その場で話者の声を学習する

「ターゲット・スピーチ・ヒアリング」システムは、ヘッドフォン装着者がボタンを数秒押しながら、ターゲットとなる人の方を向いて話すと作動し始める。システムは「登録」プロセス中、両耳のヘッドフォンから音声サンプルを取り込み、録音されたサンプルを使用して音声特徴を抽出する。これで周囲に他の話し手がいたり、雑音がある場合でも、話し手の音声特徴を抽出できる。

事前に話し相手の声を学習させておく必要はありません。その場で声を学習することでノイズ除去を実現します。長く話すほどノイズ除去の精度が上がるとしています。

以前は、数時間分の決められた台本を読み上げて声質を学習させていました。これが最近では数秒の音声データからその人の声を真似ることができるようになってきました。

今回の「ターゲット・スピーチ・ヒアリング」はこれの応用版です。

「VIVANT」5話、屋上からの監視シーンなどスパイ用途を想起

「ターゲット・スピーチ・ヒヤリング」は真っ先にスパイが使う用途を思いつきます。

第5話で乃木が野崎を望遠鏡で覗いていたビル。首都ウランバートルスフバートル広場付近(巡礼難易度低！上には登れません🙅‍♂️)国会周りは許可が特に厳しくモンゴルスタッフと制作部が撮影ギリギリまで交渉。動画でも超望遠レンズでゆっくりズームアウトする画角試したりしてます👀！ #VIVANT #VIVANTep5 pic.twitter.com/dpDqVj9Cb7
— やんぴ (@ist_yohei) August 17, 2023

ドラマ「VIVANT」第5話で、乃木が野崎を望遠鏡で見ているシーンが描かれました。このあと野崎の会話は音声解析でノイズを除去（・・・したんじゃなかったかな、記憶がおぼろげです）、聞き取り可能なように加工処理してました。

この現場に超指向性マイクと今回の「ターゲット・スピーチ・ヒヤリング（Target Speech Hearing）」があれば、乃木はその場でリアルタイムに野崎の声だけを聴き取ることができたはずです。

007シリーズでも、ガンマイクを使ってパーティー会場や向かいのビルの窓越しなどでターゲットの声だけを拾い出すシーンがあったような。右手にはガンマイクを持ち、左手はヘッドフォンの耳のところについているダイヤルをクルクル回してターゲットの声が聴きやすいところを探るようなシーンがあった気がします。

「ターゲット・スピーチ・ヒヤリング」はターゲットの声をその場でAIが学習する仕組みなので、ダイヤルで周波数を合わせるような仕組みではありません。当時はラジオ受信の発想だったのでしょうね。

観光地で同時通訳もやりやすくなる

もちろんスパイの盗聴のような非日常＆悪用ばかりではなく、一般の人に役に立つ使い方もあります。

イヤホンに同時翻訳機能が内蔵されるのが今後のトレンドになりそうで、AppleのAirPodsに通訳機能が付くのが本命だと考えています。

そんなイヤホン型通訳機に「ターゲット・スピーチ・ヒヤリング」があれば観光地の喧騒の中でも音声認識の精度が上がり、通訳の精度や実用性が上がるはずです。

コンピューティング能力とバッテリー持続時間が限定されているヘッドフォンで、AIモデルをリアルタイムで動作させる場合は、そのような複雑さが問題となる。

スマホに処理させた結果を耳に送るやり方ではなく、イヤホン単体で声の選り出しから翻訳までできればすごいことですが、まずはスマホやクラウドで処理するのでしょう。

複数の人の声に対応してほしい

現時点では、このシステムは1人のターゲットとする話し手の声だけが大きく聞こえる場合にだけ成功するが、研究チームは方向や声の大きさといった条件を満たさない場合でも機能することを目標としている。

今のところ、相手が1人だけで、周囲の音より大きな声でしゃべっている場合のみに機能するようです。

数人で旅行したり仲間で会話するシーンも多いですから、できれば複数の人の声が残せるようになるといいですし、喧噪の中での小声での会話でも認識できるようになるとよいなと思います。お互いに大声で話すなら「ターゲット・スピーチ・ヒヤリング」は要らないとも言えますので。

交通案内などは割り込んでほしい～SoundUD

「ターゲット・スピーチ・ヒヤリング」は事前学習なしでターゲット話者の声を学習して選り出してくれるのが良い点ですが、ボタンを押し続けて学習すべきターゲットを指定する必要があります。

電車の車内アナウンスは喧噪の中でも選り出して聞きたい情報ですが、いつ流れるのかがわかりませんから、ボタンを押して学習させることができません。

以前私も関わった、ヤマハが展開している「SoundUD」のような、耳には聞こえない音声信号をマイクで拾い、その信号をトリガーに車内アナウンスをイヤホンやスマホに直接届けるような仕組みも併用できるとよいなと思います。

**アナウンスの文字化**
乗り物や施設などで流れる、アナウンスの情報をスマートフォンに文字として表示させることができます。

**施設情報の提供**
その場所に関する、利用者に知ってもらいたい情報を、インターネットで検索させることなく提供することができます。

→車内アナウンスは走行音がうるさくて聴き取れないことが多いので役立ちます。空港やショッピングモールなどのアナウンスも喧噪で聞こえないことが多いので効果的です。

**エンターテイメントの字幕**
舞台や映画などで、セリフや解説をリアルタイムに、スマートフォンへ文字として表示することができます。

→舞台や映画は、舞台中の効果音やBGMなどでセリフが聴き取りにくい時に役立ちます。

**緊急情報の発信**
緊急時の避難経路や災害情報など、速やかで正確な情報提供が必要な場合にも情報伝達手段として活用することができます。

→サイレンと悲鳴で避難アナウンスが聴こえなくなることが想像できます。避難指示が聴こえれば助かる命もあるかもしれません。

これらの例は「ボタンを押して話者の声を学習させる」というやり方では対応できないものですが、SoundUDのトリガー信号音を「聞きたい声」として事前に学習させておけば、喧噪の中から信号をキャッチできるようになるはずです。

スパイ用途ではなく日常で役立つ

こうやってみてきた通り、AIで「聞きたい声だけ」聞こえるようにする技術はスパイ用途だけでなく日常で結構役立ちそうです。

特に同時通訳機能とセットでイヤホンに内蔵されていけば、外国人観光客を相手にした店員さんや海外旅行が好きな人には即戦力です。

やはり普及率と影響力が高いAirPodsに内蔵されることを期待してしまいます。Appleの新製品が多数発表されるWWDCは6月10日から。「ターゲット・スピーチ・ヒヤリング」はまだ実証実験段階なので今年の内蔵はないでしょうけれど、来年には同時通訳機能とセットで来てくれないでしょうか。

この記事が気に入ったらサポートをしてみませんか？