見出し画像

Day45―AlterEgo:機械と人間の新しいコミュニケーションツール

今回はデザイン、工学的トピック。

※画像はYouTubeより。
AlterEgo - MIT's Computer system transcribes words users “speak silently”

Kaper, A., Kapur, S., & Maes, P. (2018, March) Alterego: A personalized wearable silent speech interface. In 23rd International Conference on Intelligent User interfaces (pp. 43-53). ACM.

AlterEgoという、顎に取り付けるタイプのウェアラブルデバイス。実際に発声しなくても、発話するときの筋肉の動きから内容を分析するデバイスの開発レポート。

背景

スマートスピーカーに代表されるように、音声認識デバイスが近年爆発的に普及している。しかし、日常環境では発声された音声を認識するデバイスは使いづらく、プライバシーなどの問題も多い。
今回開発したAlterEgoは、Silent Speech Interface (SSI) の一種である。SSI自体はEEG (脳波計) などを使用した手法が、古くから検証されてきた。その方法は侵襲的なもの、非侵襲的なものの2種類がある。
今回採用した、顎周辺の筋肉の動きを利用したSSIはWand and Schultz (2011) が考案した。

デバイス

AterEgoは、筋肉の種類ごとに動きを見るために顎周辺の7ヵ所において電位差を計測する。顎にぴったりと密着する、リストバンドのような形状をしたデバイスである。
信号データはプリプロセスの後、Discrete Cosine Transform (DCT) によって周波数ごとのカテゴリに分類する。それらを入力データとし、多層型畳込みニューラルネットワークによって処理する。このニューラルネットワークは、最も確率の高い単語を導き出す構造になっている。

実験

数字、IoT操作、世界時計、カレンダー、チェス、返信という6つのカテゴリにおける単語の認識率について、実験を行った。
10人のユーザで検証したところ、平均して92.01%の精度で正しく単語を認識した。

所感

個人的には全く考えてなかったアプローチのため、斬新。デザイン性の問題から普及するかは微妙だが、わざわざ複雑な脳波を解析するよりも、こういうシンプルな動きを分析するウェアラブルのほうが普及する可能性がありそう。

いいなと思ったら応援しよう!