No.03〜04:脳波から再構築|今週の論文

人がなにをみているか。なにを聞いているか。なにを感じているか。
これらの情報を言葉を介さずに表に出すことができる時代がくるかもしれない。

No.3:瞬きのモデル

前回の続きでまばたきについて。
人間の瞬きがなにを表すかについて、瞬き回数のモデル化を行うことで検討した論文。

Threshold-varying integrate-and-fire model reproduces distributions of spontaneous blink intervals
(Ryota Nomura, Ying-Zong Liang, Kenji Morita, Kantaro Fujiwara, Tohru Ikeguchi, 2018)

瞬きは最も頻繁に起こる人間の行動の一つである。
しかし、その認知的な意味はあまり知られていない。

そこで、人間の自発的な瞬きをモデル化するために、認知課題中の生理的ゆらぎを表す可変閾値を伴うリーク付積分発火モデルの提案をおこなった。

その結果、人間の瞬き率が可変閾値を伴うリーク付積分発火モデルによって再現することができた。

このことから、瞬目率の変化は脳内のドーパミンレベルや生体システムのリズム等の内部状態によって規定される閾値のゆらぎを反映していると考えられる。



No.4: 脳波から聞いた音声を再構築

ECoGと呼ばれる頭蓋骨の中にシート状の電極を埋め込み、直接脳波を計測する手法を用いて聴覚野の脳波を計測し、脳波計測時に患者が聴いた音をDNN(ディープニューラルネットワーク)を用いて再構成した論文。

Towards reconstructing intelligible speech from the human auditory cortex
(Hassan Akbari, Bahar Khalighinejad, Jose Herrero, Ashesh Mehta, Nima Mesgarani , 2019)

人間の聴覚野から発話の再構築を行うことで、脳内の神経活動を用いて、脳との直接的なコミュニケーションを行うことができるような発話装置の可能性が考えられるようになった。
しかし、これまでの再構築は精度が低く、BCI(ブレインコンピューターインターフェイス)としての活用は限界があった。

そこで、神経活動を用いた発話装置の技術を進歩させるべく、最新の深層学習技術と最新の音声合成技術を組み合わせて発話を再構築した。

研究では、5人の患者に数字を含む物語を聞かされてその時の脳波をEcogで計測した。
その脳波からある周波数帯だけ抽出し、線形回帰モデルとDNNで分類し、音声スペクトログラムとVocoderで0〜9の数字の音声としてデコーディング(再構成)をおこなった。
つまり、線形回帰&スペクトログラム、線形回帰&Vocoder、DNN&スペクトログラム、DNN&Vocoderの4パターンでデコーディングをおこなった。

その結果出力された4種類の音を、さらに11人の被験者に音を聞かせて精度を調べた。その結果、DNN&Vocoderが最も精度が高いという結果が出た。

このことから、麻痺患者のコミュニケーション回復だけでなく、人間とコンピューターのインタラクションを可能にする次世代の発話BCIシステムを開発するためには、ディープラーニングと音声合成技術が有効であることが示された。


余談

研究の関係で今後もデコーディング関係が続きます。
モデルとかの詳細については自分も勉強不足だし、あまり細かくなってもシリーズの趣旨から逸れるので載せませんが、もし気になったら読んでみてください。
より簡潔に、よりキャッチーに、でも内容は逸脱しないまとめを心がけていこうと思います。

とりあえず、一週限りにならなくてよかった。
続けることが大事。

なにかおかしな解釈や気づいた点があったら連絡ください。








この記事が気に入ったらサポートをしてみませんか?