『AIで「聞きたい声だけ」聞ける、ノイズキャンセリング新技術』~【web3&AI-テックビジネスのアイディアのタネ】2024.5.27
「先進テックで未来の生活はもっと良くなる!」と信じて、Web3・AI・ガジェットなどのデイリーニュースから毎日ひとつピックアップしてご紹介しています。
新規ビジネスのアイディアのタネがほしい方、未来を想像してワクワクしたい方、読んでちょっといいなと思った方、ぜひフォロー・高評価よろしくお願いします!
■AIで「聞きたい声だけ」聞ける、ノイズキャンセリング新技術
AIの急速な技術進展で、かつてSF小説や映画で想像されていたことが実際に製品化されつつあります。特定の人の声だけを残して、他の声や音をノイズキャンセリング技術で消してしまうヘッドフォンの研究が進んでいるそうです。
概念実証(PoC)の段階としてはいますが、イヤホンメーカーに組み込み交渉できるレベルにはあるというスピード感には驚かされます。
その場で話者の声を学習する
事前に話し相手の声を学習させておく必要はありません。その場で声を学習することでノイズ除去を実現します。長く話すほどノイズ除去の精度が上がるとしています。
以前は、数時間分の決められた台本を読み上げて声質を学習させていました。これが最近では数秒の音声データからその人の声を真似ることができるようになってきました。
今回の「ターゲット・スピーチ・ヒアリング」はこれの応用版です。
「VIVANT」5話、屋上からの監視シーンなどスパイ用途を想起
「ターゲット・スピーチ・ヒヤリング」は真っ先にスパイが使う用途を思いつきます。
ドラマ「VIVANT」第5話で、乃木が野崎を望遠鏡で見ているシーンが描かれました。このあと野崎の会話は音声解析でノイズを除去(・・・したんじゃなかったかな、記憶がおぼろげです)、聞き取り可能なように加工処理してました。
この現場に超指向性マイクと今回の「ターゲット・スピーチ・ヒヤリング(Target Speech Hearing)」があれば、乃木はその場でリアルタイムに野崎の声だけを聴き取ることができたはずです。
007シリーズでも、ガンマイクを使ってパーティー会場や向かいのビルの窓越しなどでターゲットの声だけを拾い出すシーンがあったような。右手にはガンマイクを持ち、左手はヘッドフォンの耳のところについているダイヤルをクルクル回してターゲットの声が聴きやすいところを探るようなシーンがあった気がします。
「ターゲット・スピーチ・ヒヤリング」はターゲットの声をその場でAIが学習する仕組みなので、ダイヤルで周波数を合わせるような仕組みではありません。当時はラジオ受信の発想だったのでしょうね。
観光地で同時通訳もやりやすくなる
もちろんスパイの盗聴のような非日常&悪用ばかりではなく、一般の人に役に立つ使い方もあります。
イヤホンに同時翻訳機能が内蔵されるのが今後のトレンドになりそうで、AppleのAirPodsに通訳機能が付くのが本命だと考えています。
そんなイヤホン型通訳機に「ターゲット・スピーチ・ヒヤリング」があれば観光地の喧騒の中でも音声認識の精度が上がり、通訳の精度や実用性が上がるはずです。
スマホに処理させた結果を耳に送るやり方ではなく、イヤホン単体で声の選り出しから翻訳までできればすごいことですが、まずはスマホやクラウドで処理するのでしょう。
複数の人の声に対応してほしい
今のところ、相手が1人だけで、周囲の音より大きな声でしゃべっている場合のみに機能するようです。
数人で旅行したり仲間で会話するシーンも多いですから、できれば複数の人の声が残せるようになるといいですし、喧噪の中での小声での会話でも認識できるようになるとよいなと思います。お互いに大声で話すなら「ターゲット・スピーチ・ヒヤリング」は要らないとも言えますので。
交通案内などは割り込んでほしい~SoundUD
「ターゲット・スピーチ・ヒヤリング」は事前学習なしでターゲット話者の声を学習して選り出してくれるのが良い点ですが、ボタンを押し続けて学習すべきターゲットを指定する必要があります。
電車の車内アナウンスは喧噪の中でも選り出して聞きたい情報ですが、いつ流れるのかがわかりませんから、ボタンを押して学習させることができません。
以前私も関わった、ヤマハが展開している「SoundUD」のような、耳には聞こえない音声信号をマイクで拾い、その信号をトリガーに車内アナウンスをイヤホンやスマホに直接届けるような仕組みも併用できるとよいなと思います。
→車内アナウンスは走行音がうるさくて聴き取れないことが多いので役立ちます。空港やショッピングモールなどのアナウンスも喧噪で聞こえないことが多いので効果的です。
→舞台や映画は、舞台中の効果音やBGMなどでセリフが聴き取りにくい時に役立ちます。
→サイレンと悲鳴で避難アナウンスが聴こえなくなることが想像できます。避難指示が聴こえれば助かる命もあるかもしれません。
これらの例は「ボタンを押して話者の声を学習させる」というやり方では対応できないものですが、SoundUDのトリガー信号音を「聞きたい声」として事前に学習させておけば、喧噪の中から信号をキャッチできるようになるはずです。
スパイ用途ではなく日常で役立つ
こうやってみてきた通り、AIで「聞きたい声だけ」聞こえるようにする技術はスパイ用途だけでなく日常で結構役立ちそうです。
特に同時通訳機能とセットでイヤホンに内蔵されていけば、外国人観光客を相手にした店員さんや海外旅行が好きな人には即戦力です。
やはり普及率と影響力が高いAirPodsに内蔵されることを期待してしまいます。Appleの新製品が多数発表されるWWDCは6月10日から。「ターゲット・スピーチ・ヒヤリング」はまだ実証実験段階なので今年の内蔵はないでしょうけれど、来年には同時通訳機能とセットで来てくれないでしょうか。
この記事が気に入ったらサポートをしてみませんか?