脳波から音声を認識するーー「2019年の音トピック」の最前線2

放送の様子はこちら(下記サイトでは音声配信も行っています)。
「脳波から音声を認識する〜「2019年の音トピック」の最前線2」(Screenless Media Lab.ウィークリー・リポート) 2019.12/27 TBSラジオ『Session-22』OA

Screenless Media Labは、音声をコミュニケーションメディアとして捉え直すことを目的としています。今回は前回に引き続き、2019年の音に関する様々な技術を紹介したいと思います。

◾脳内の声を読み取る研究

2019年4月、米カリフォルニア大学サンフランシスコ校の研究チームが、イギリスの科学誌「ネイチャーnature」に興味深い論文が発表されました。

実験では、まずBCI(Brain-computer Interface)と呼ばれる脳波等を読み取る装置を着用した被験者が発音します。ここでコンピュータが脳波と同時に、話す時の口や顎の動きもデータ化します。そして脳波と口の動きのデータをかけ合わせることで、言葉を発さなくとも、口の動きだけで話そうとした内容が合成音声として発音します(実験では、この合成音声のほとんどが聞き取り可能でした)。

こうした研究はまだまだ初期段階とのことですが、多くのデータを集めることで、将来的には誰でも、装置を装着するだけで思っていることを、思っただけで機械に発音させることが可能になるかもしれません。これは発話障害を抱える人や、病気で声を発することが困難な人など、福祉の分野では多くの恩恵をもたらすでしょう。

◾声から表情を作成する

次に、声から様々な情報を分析する技術についても紹介します。以前、声から話者の顔を生成するAIについて紹介しましたが、一枚の顔写真と音声データから、表情豊かに人が話す映像を合成する技術も登場しています。

音声から感情を分析して表情として表す研究は他にもありますが、この研究では、一枚の顔写真から自然に表情をつくるだけでなく、他人の声を利用しても表情を表現できます。さらに、同じスピーチ内容でも、それを笑ってる顔にも怒っている顔にも変化させることができるのです。

研究では、アインシュタインなど、偉人の写真から、表情を含めて話をしている姿を作成しています。つまり写真だけあれば、本人が言ったこともない言葉を、表情込みで語らせることができるのです。さらに、近年は合成音声技術も進んでおり、声でその人を判断することも難しくなってきています。そのためこうした技術には、フェイク技術への悪用を危惧する声も寄せられています。

音声には様々な可能性もありますが、懸念もあります。広く多角的な視野から、2020年も音声について研究が続けられる必要があります。

この記事が気に入ったらサポートをしてみませんか?