音を出さずに音声認識が可能なデバイスーー「ジョーセンス」を考える

Screenless Media Lab.ウィークリー・リポート
2021.3/19 TBSラジオ『Session』OA


Screenless Media Lab.は、音声をコミュニケーションメディアとして捉え直すことを目的としています。今回は、音を発せずとも音声認識が可能な、興味深い研究を紹介します。

◾顎の動きで音声認識

アメリカとインドの大学の研究者グループが2021年2月、「ジョーセンス(JawSense)」と名付けられたウェアラブルデバイスを発表しました(jawは顎の意味です)。ジョーセンスは、なんと顎(あご)の動きから音声認識を行うデバイスで、耳に装着することで、ハンズフリーで利用が可能です。

研究者たちは、人の頬と顎の神経学的・解剖学的な構造を研究することで、うなずきや頭部の動き、あくびといった人間からのノイズの影響を受けても、顎の動きを確実に捉えることができる設計を構築しました。顎の動きは、顎関節付近の皮膚表面に搭載した、3軸の加速度センサーで捉えることが可能です。

この研究の特徴は前述の通り、実際に声を出さずとも、筋肉の動きやその変動から音声、詳しく言えば音素認識を可能にしています。音素とは言葉を構成する最小の音で、日本語であれば/a/, /i/, /u/, /e/, /o/の5つの母音とその他の子音等があります。例えば子音にも/m/と/p/と区別されますが、このような音素の認識は、文章等の音声認識に必須のものです。

音は肺や声帯を通って声になりますが、ジョーセンスはこの音素を上述のセンサーで区別するのです。6人の被験者を対象とした実験では、9つの音素に対して、音声発話なしで92%の精度で音素の認識に成功しています。

◾音を出さずに音を認識することのメリット

音声発話なしで音声認識ができるこの技術は、様々な領域で応用が可能です。まず、なんと言っても声を発することが難しいユーザーです。発話は困難な状況にあっても、顎の動きなどが可能であれば、音声認識が可能です。合成音声で音と発したり、あるいは文字に起こすことで、コミュニケーションがよりスムーズになることが考えられます。

また、こうしたデバイスはビジネス現場でも利用か考えられます。研究者たちは、機密レベルの高い情報、特にプライバシー情報など、公共空間では声に出すのに適さない情報のやりとりに関して、ジョーセンスのようなデバイスが適切であると主張しています。また、騒音環境など、自分の声が伝えづらい環境にもこのデバイスは適しています。

今後の課題としては、音声認識の技術向上はもちろんのこと、AIを用いることでユーザーごとの最適化などが考えられます。音を発せずとも、音が持つ役割を果たすことができるという意味において、こうした研究は音声研究でも注目すべきものでしょう。


この記事が気に入ったらサポートをしてみませんか?