見出し画像

AIヘッドフォンで群衆の中の1人の人物を見つめるだけで特定の人の声を選別して聞く新技術 ワシントン大学

ノイズキャンセリングヘッドフォンは、周囲の音を効果的に遮断する技術として普及していますが、必要な音を取り込むことは依然として難題です。Appleの最新のAirPods Proは、自動的に音量を調整し会話時に音を拾いますが、どの声を聞くかはユーザーが制御できません。

ワシントン大学の研究チームは、AIを利用して特定の人の声だけを聞くことができる新しいシステム「Target Speech Hearing」を開発しました。このシステムでは、ヘッドフォンを装着したユーザーが話者を3〜5秒見つめることで、その話者の声を登録(エンロール)します。その後、環境音をすべてキャンセルし、リアルタイムで登録された話者の声のみを再生します。たとえユーザーが騒がしい場所を移動したり、話者から目をそらしたりしても、この機能は有効です。

この成果は、5月14日にホノルルで開催されたACM CHI Conference on Human Factors in Computing Systemsで発表されました。現在、このシステムのコードは公開されており、他の研究者が利用できる状態です。しかし、商業化はまだされていません。

「現在のAIはウェブ上のチャットボットとして質問に答えるものが主流です。しかし、このプロジェクトでは、AIを使ってヘッドフォンを装着した人の聴覚をその人の好みに合わせて変更することに取り組みました」と、シニア著者であり、ワシントン大学Paul G. Allen School of Computer Science & Engineeringの教授であるShyam Gollakota氏は述べています。「このデバイスを使用すれば、騒がしい環境でも特定の話者の声をはっきりと聞くことができます。」

システムの使用方法はシンプルです。マイク付きの市販ヘッドフォンを装着し、話者に向かって頭を向けながらボタンをタップするだけです。話者の声の音波がヘッドフォンの両側のマイクにほぼ同時に到達することを利用して、システムは話者の声の特徴を学習します。このプロセスにより、ユーザーが移動しても、システムは話者の声を追跡し続けます。話者が話し続けることで、システムの精度は向上します。

チームは21名の被験者に対してシステムをテストし、エンロールされた話者の声の明瞭さが平均で2倍に向上することを確認しました。この研究は、特定の音を選択して聞く「セマンティックヒアリング」研究を基にしています。

現在、TSHシステムは一度に一人の話者しか登録できず、ターゲット話者の声と同じ方向から大きな声が出ているときは登録が難しいという制限があります。ユーザーが音質に満足しない場合は、再度話者を登録することで明瞭さを改善できます。

チームは今後、このシステムをイヤホンや補聴器に拡張することを目指しています。

詳細内容は、ワシントン大学が提供する元記事を参照してください。

【引用元】

【読み上げ】
VOICEVOX 四国めたん/No.7


この記事が気に入ったらサポートをしてみませんか?