音声 x HCI 研究: 回顧録とこれから

こんにちは。今回は HCI Advent Calendar 20日目の記事として、荒川 (Carnegie Mellon University) が、取り組んでいる 音声 x HCI の研究に関して考えていることをざっくり書きたいと思います。学部の卒業研究からなので比較的長く取り組んでいますが、最初から考えていた研究テーマではなく、あれよあれよと手探りを繰り返すうちに見えてきたテーマであるので、その道のりと今後やりたいことを書いていきます。

この研究は本年度の総務省異能vationの破壊的挑戦で、「声の自在化によるコミュニケーション拡張」という題で取り組んでいます。研究詳細や共同で何かを行うことに興味がある人はぜひ連絡ください (Twitter: @rikky0611)。

本記事は自分の研究の道のりの説明に文字数を割いており、関連研究などへの言及はそれぞれにリンクしてある論文に任せたいと思います。ご容赦下さい。

1. はじまり ~卒研は信号処理の研究室~

所属していた東京大学工学部計数工学科システム情報工学コースでは、原則として学部と修士で異なる研究室に所属することになります。多様な研究室がありますが、少なからず共通する「システム」の考え方があり、複数の研究室を回ることで多角的に考えられるようになるなどの目的があるそうです。

自分は修士では稲見先生が主宰する身体情報研究室に所属予定でした。卒研はいくつかの希望を書いてからランダムで割り振られ、猿渡先生のシステム第一研究室に所属しました。音を扱ったことはなかったので、何か新しい知識が得られるだろうとワクワクしていました。

9月頭の初回の顔合わせでいくつかプロジェクトが紹介されました。その中の一つが、 その後とてもお世話になる高道先生が取り組んでいた「深層学習を用いたリアルタイム音声変換」でした。実は顔合わせの前までは、「Deep は少し取り組んだことあるし、せっかく猿渡研に所属するならその代名詞の音源分離にちゃんと数学的に取り組むのも面白いかもしれない。Deep はやらない。」と考えていたのですが、高道先生のピッチを聞いて「名探偵コナンの蝶ネクタイを作ろう」とくるっと意思変更して、手を挙げていました。この時は、その後3年間以上取り組むとは思ってもいませんでした。

半年間の卒研生活では、高道先生のとてもハンズオンのご指導のおかげで、ちゃんと動作するリアルタイム音声変換のシステムの作成・データ拡張による精度改善を達成することができました。この結果は、日本音響学会(学生優秀発表賞)ISCA Speech Synthesis Workshop で発表をしました。

この時作成した技術を元にして、その後日本テレビの企画で漫画「HUNTER × HUNTER」とコラボをした展示を一ヶ月ほど行っていました。「名探偵コナンの蝶ネクタイを作ろう」という動機でスタートした研究がこういう形になっている理由はきっと気にしちゃいけないんだと思います。

超☆汐留パラダイス!-2019SUMMER-での展示の様子

2. 蝶ネクタイではなく「マスク型デバイス」 ~卒研の最後に~ 

さて、せっかく面白いシステムができたのでもっとリアルタイム音声変換を日常で使えるようにしたいなと、卒研の終わりのころ考え始めました。

そこで名探偵コナンに秘められたあのパンドラの箱を開けてしまうことになります。それは、「コナンくんの音声も周囲に聞こえちゃう問題」です。音声変換で声を変えたはいいものの、自分の元の声を消せないと大問題です。

この問題意識から、卒研の最後の数週間は、マスク型デバイスを作っていました。DMM.make AKIBA に足を運び 3D プリンタでマスクを作成しました。この辺りは今振り返ると、全然マスクの構造などもしっかり考えず、それっぽいものをエイヤで作ってしまったので少し恥ずかしさはあります。そのマスクを使って、近距離コミュニケーションで音声変換を使うインタラクション を提案した論文が、HCI 系会議のトップカンファレンスである UIST のポスターに採択され、発表を行いました。

リアルタイム音声変換用マスク型デバイスと、それを使った近距離コミュニケーション
友人のイラストレータの方がバシッと僕の空想を絵に落としてくれました。

ミニネタでしたが、このビジョンを考える間で、もっともっと研究できることがあるんじゃないかと思うようになり、それが修士の研究に繋がっていきます。

3. 自分の声を変える「声の化粧」 ~修士は身体情報の研究室~

修士は東大の情報理工学系研究科の稲見研究室でした。

人間工学、生理学の知見に基づき、身体性をシステム的に理解し設計可能とする 

先端研ページ

先輩方は四肢の運動などに関する研究 (e.g., 第三の腕) や触覚の研究などを行なっていて、最初はそれらも面白いと思っていたのですが、せっかく音声変換の研究を卒業研究で行なっていて、HCI 的な応用も見えていたので、声も身体の一部だ!と考えて何かできないか思索し始めました。この意思決定をできたのも、研究の進行を快諾してくださり、また壁打ち的に色々な方針をあげてくださった稲見先生のおかげです。

色々と調べていくうちに、VR の研究でよくやられているような、自分の見た目を変容させることで心理的な効果を生み出す研究の声版があまりやられていないことに気づきました。例えば、見た目の変容の有名な例ではプロテウス効果があります。この効果は要は、アバターで見た目が変わると、実際の行動や心の動きに変化が生じるというものです。例えば魅力的な見た目のアバターになると、より社交的になるといった実験が元の論文では行われています。ちょうど研究室に転がっていた「VR は脳をどう変えるか」を読書していたことなどが着想に繋がったのかもしれません。

The Proteus Effect: Influence of Avatar Appearance on Social Interaction in Virtual Environmentsより

見た目の変容とその効果に関しては、たくさんの研究が行われています。これらは CG の技術の発展に伴って、さまざまな実験パターンができるようになったことがきっかけだと思いました。では、音声については深層学習を用いて高精度でほぼ任意の変換がリアルタイムにできるようになった今だからこそ色々実験ができるのではないか、という着想を得ました。

と、まあここまではフォーマルに語りましたが、実際は同時に「自分の声を渋い俳優の声に変えて喋り続けたいな〜〜そしたらどういう変化が起こるんだろうなー」という妄想ベースでスタートしたというのが半分です。

上のような妄想を声の化粧というコンセプトに練り上げ、その初期的な検証の研究に修士の間取り組んでいました。声の化粧とは、好きな時に自分の声を好きな声にリアルタイムに変換して自分が聴くことで、自分の声が変わったと錯覚し、人格の変化、行動変容、精神的にポジティブな影響を使用者に与える未来の化粧技術です。

声の化粧のイメージ

このコンセプトを念頭に、研究を開始しました。実際に、自分の声がリアルタイム音声変換された状態で会話を続けることのできるシステムを作成し、それを用いて修士1年の終わり頃から実験を行いました。その結果などをまとめた論文を HCI の国際会議である International Conference on Multimodal Interaction (ICMI) で発表しました。ごく僅かな遅延がある音声がフィードバックされた状態で話すことは実は困難であり、それを乗り越えるための方法の導入や、心理学で使われる評価手法などを用いて使用者の内面に生じる効果の議論などを行っています。興味があればぜひコメントください。

今回は音声変換を使った研究の第一歩として 若者 <> 高齢者 のペアで研究を行いました。これは視覚の変容の実験でもしばしば採用されるペアだったりします。もちろん他のペアでも同じ実験が行えます。音声変換の強みは、データがあればさまざまな人の声に音声を変えられることです。音声変換はピッチを調節したりするボイスチェンジャーとは原理から異なります。皆さんはどのような時に、どのような声に自分の声を変えてみたいと思いますか?

声の化粧のシナリオ例

※ ボイスチェンジャーを用いた音声フィードバックによる研究はちらほら報告されていましたので、枠組み自体は新しい訳ではありません。ただそれらは性質上、ピッチを高くすることで気分を向上させる、といったもので変換の幅が限られていました。音声変換を使うことによって、より高品質で任意の変換のフィードバックができるようになったという位置付けです。

4. 他人の声を変える「Mindless Attractor」 ~修士の後半~

さて声の化粧では、自分の声を変換することの使用者への効果を調べました。では他人の声を変換したらどういうことができるかなと思ってアイデアを出していく中で行ったのが、実は以前 note 記事でも解説した Mindless Attractor (CHI'21) です。

ふとした時にでも自分の聞き覚えのある声にはパッと意識が自然と向くなあ、これ何か利用できないかなあというのが元々のモチベーションでした。(実験では音声変換の使用には至らず Future work になっていますが。)

こちらの研究については以下の note 記事を参照してください。

修士では以上の二つの研究プロジェクト (声の化粧とMindless Attractor) を修論にまとめました。タイトルは "Mindless Computing through Auditory Intervention" です。連絡をくれましたら、喜んで原本を共有します。

5. 声の自在化へ ~今後~

修士では上のように、音声をリアルタイムに変換する技術を用いたインタクションの研究を探索的に行っていました。それらに取り組む過程で見えてきた色々な問題や深掘りたいポイントに現在は取り組んでいます。あげると future work は限りがありません。例えば、

  • 声の化粧の 長期的/副 作用

  • 自他の声を好き勝手変えてしまうことの倫理的問題

  • 見た目の変容と組み合わせた時の効果

などなどです。

こういった点は重要であると認識はしつつも、自分のリソースは有限で、また元々はシステムを作るエンジニアリングが好きということもあり、どうしたらもっと声の変換を簡単にできる世界を実現できるか、という方向で現在は研究を進めています。(つまり上のような点は手付かずです…!)

関連して、修士の指導教官である稲見先生は「自在化」というキーワードを用いています。

自在化とは「機械によって拡張された能力を、人が自らの身体のように自由自在に扱えること」です

稲見昌彦×吉藤オリィ|身体の「自在化」は社会をどう変えるのか

声を自在化するためには何が壁なのか。現在は、合成した音声を使用する瞬間を日常生活に取り入れてもらうような状況を作り、色々な仮説の検証を行なっています。

自分の考えるもう一つの大きな壁は、音声モデルの作成のコストの高さです。音声変換モデルを作るには、なりたい音声のデータを収録する必要などがあり、ここのコストを下げて、好きな声にパッとなれるようにしたいと考えています。また、中にはなりたい音声の収録が不可能な場合もあります。例えば昔の自分の声や有名人の声などです。信号処理的に、少量のデータから音声モデルを作成するようなアプローチもありますが、自分は現在

  • 音声のアノテーションコストを下げるインターフェース

  • 既に存在するデータからの音声復元

などの観点で研究を行なっています。こちらも成果が出しだい note で紹介したいと思っています。

ここまで長々とお読みいただきありがとうございました。何か takeaway がある訳ではないのですが、卒研である意味たまたま始めた音声変換の研究から、グツグツと考え続けて研究が段々と広がってきているので、面白いなあと思います。これからも、また全然思ってもいなかった方に展開する可能性もあるんじゃないかとワクワクしています。自分の思い描いていることは音声 x HCI のほんの一角だと思っています。色々な妄想があると思いますので、ぜひ意見交換できたら幸いです。




この記事が気に入ったらサポートをしてみませんか?