見出し画像

[CHI2021採択] 機械学習の偽陽性を踏まえた、ユーザーをイラつかせない聴覚フィードバックデザイン

ヒューマンコンピューターインタラクション(HCI) のトップ国際会議のひとつである ACM CHI 2021 に、荒川(東京大学)と矢倉(筑波大学)が共同で執筆した機械学習の応用に向けた介入手法のデザインに関する論文 “Mindless Attractor: A False-Positive Resistant Intervention for Drawing Attention Using Auditory Perturbation” が Full paper で採択されました。本記事ではその内容について簡単に紹介したいと思います。

論文はこちら: https://arxiv.org/abs/2101.08621

1. 背景

機械学習の発達を背景に、Webカメラ等の汎用的なデバイスで様々な対象をセンシングすることが可能となっています。例えば、オンライン授業などのビデオコミュニケーションにおいて、ユーザーが集中しているかどうかを顔画像から推定する手法 [1] も提案されています。

画像1

一方で、機械学習によるセンシングを用いたときに、どのようにユーザーに介入すればよいのかという点はほとんど議論されていません。一番簡単なのは、単純に集中していないときにアラートを出すという方法でしょうか。しかし、「集中しなさい」と先生に怒られたからといって集中できるとは限らないように、そのような方法では集中を助けるどころか、ユーザーの学ぼうというやる気を損なってしまう可能性もあります。

その上、機械学習を使うからこその難しさもあります。それは、機械学習が集中していないと判断したからといって、本当にそうだとは限らず、単なる誤検知の可能性も否定できないという点です。自分としては集中しているつもりなのにアラートされてしまったら、システムのことを信用できなくなり、使わなくなってしまいます [2] よね。

そこで我々は、機械学習によるセンシングを用いたシステムにおいて、どのようにユーザーへの介入をデザインすべきかを議論し、評価する研究を行いました。

2. アイデア

我々の介入手法は、人の自然なコミュニケーションを観察する中でヒントを得ました。人は会話中に、意識的、あるいは無意識的にも声の高さ(ピッチ)や大きさを(ボリューム)自在に変化させることで、聞き手の注意を引きます。みなさんも、プレゼン練習などでいかにそうした声の抑揚を使いこなすかという点に苦心されたことがあるかもしれません。これは逆にいうと、我々はそうしたピッチやボリュームの変化に無意識的に注意を向けるという認知特性 [3-4] を持っています。

画像2

これを活かすことで、コンピューターによって人の注意を自然に戻すことができるのではないかと考えました。つまり、ユーザーの集中が切れたときに、アラートを出したりせずともさりげない声の変化を機械的に生み出せばよいということです。

このアイデアに基づいて、ユーザーの注意を自然に引き出すために音声のピッチとボリュームをリアルタイムに摂動させるシステム Mindless Attractor を開発しました。

3. 行動経済学的背景

実は、我々のアプローチは行動経済学の知見とも紐付けることができます。みなさんは、ダニエル・カーネマンという行動経済学者をご存知でしょうか?ノーベル賞も受賞されている著名な研究者なのですが、彼の著作「ファスト&スロー」では “Dual Process Theory” という認知モデルが取り上げられています。

とても簡単にいうと、我々の認知過程は、本能や経験に基づいてとてもスピーディーに判断を下す「システム1」と論理的に熟考しながら判断を下す「システム2」の組み合わせによって成り立っているというモデルです。そして、システム2を働かせるには注意力を要するため、人の多くの行動は無意識的に動作できるシステム1が担っていると言われています。

逆に言うと、人の行動に変化を生み出す介入を行うにはシステム1に働きかける必要がああるというわけです。そうした立場から、人の直観やバイアスの特性を活かして行動変容を生み出そうと、「ナッジ(Nudge)」というアプローチも生み出されました。例えば、道路上の白線の幅や間隔を変えることでスピードを出しているようにドライバーを錯覚させ、結果的にスピード超過をなくすという話 [5] を聞いたことがあるかもしれません。

ただし、こうしたナッジは、往々にして全員に同じ仕掛けを提示する形になっています。先程の例でいうと、もし車のスピードに合わせて自動的に白線の幅を調整できれば、より効果的に多くのドライバーに作用したかもしれません。そうした点から、コンピュータを使って、ユーザーのコンテキストに合わせながらパーソナライズすることで、システム1を通した行動変容の効果を高めようというアプローチ Mindless Computing [6] が提案されました。

我々の手法は、人間の無意識的な認知特性を活用するという点で Mindless Computing と共通する部分が大きいです。一方で、機械学習と組み合わせるという観点はこれまでにありませんでした。特に、誤検出の可能性もある機械学習でのセンシングにおいて、この Mindless なアプローチを組み合わせることで、ユーザーのフラストレーションを生み出すことなく効果的に機械学習を活用できるというのは、新たな示唆を与えるものです。

4. 実験と結果

もちろん、アイデアを述べるだけでは研究として成立しません。我々は、Mindless Attractor の有効性を検証するために、オンライン授業の様子を再現した2つの実験を行い、以下の点を確認しました。詳細は論文を参照ください。

・Mindless Attractor を使用することで、しなかった場合に比べて、集中していない時間はおよそ平均 40 % 減少した。これは、明示的にアラートで注意した場合と比較しても、同等の効果であった。

・さらにユーザーは、明示的なアラートよりも Mindless Attractor の使用を強く好んだ。逆に、我々が予想した通り、明示的なアラートが誤検知によって引き起こされた場合に、ユーザーが不満を持つ様子も観察された。

5. 結論と今後

まとめると本論文では、以下のような貢献をしました。

・オンライン授業において、ユーザーの注意が自然と戻るようにリアルタイムに音声を摂動させるシステム Mindless Attractor を設計

・実験を通して、自然に注意を戻せるという有効性と、明示的なアラートと比較して好まれることを確認

・これらの結果を元に、機械学習センシングに基づく介入デザインを考えていく上での、非明示的かつフラストレーションを生み出さないアプローチの重要性を議論

これからの展望として、本技術はオンライン授業以外の状況にも応用できると期待しています。例えば、近い将来にイヤホンのようなデバイスを装着し続けるのが当たり前になれば、聴覚へのコンピューターによる介入がより簡単になり、オフラインのコミュニケーションでも応用できるようになるでしょう。ユーザーが自分の都合に合わせて、会話への集中レベルをコンピューターを介して能動的に操作するといった聴覚の人間拡張技術になると考えています。

6. 謝辞

実験で使用したセンシングモジュールの一部は株式会社ACESによって提供されました。

7. FAQ

Q1. 集中度の検知はどのように行っているのですか?眠いときにも効果があるのですか?

A1. 今回の実験では、Webカメラの画像から顔の向きを推定し、PC画面を見ているかいないかという判定を行っています。そのため、実験の開始前にキャリブレーションを行っています(詳しくは論文を参照ください)。
また、最近の研究では画像からの眠気検知も可能になっている [7] ため、そのようなセンシングと組み合わせることは可能です。Mindless Attractor が眠くて仕方がないようなときにも効果があるかは検証が必要ですが、ユーザーの状態に合わせて、明示的なアラートと組み合わせるようなハイブリッドな使用も望ましいと考えています。

Q2. 介入手法の音声摂動はピッチとボリュームしか考慮しなかったのですか?

A2. 先行研究から音声のピッチ・ボリューム・スピードといった要素の変化に反応するであろうと予想されました。しかしリアルタイムでの使用を考えたときに、スピードを変化させると時間的な整合性が取れなくなってしまうため、不適切であると考えました。本研究の展望としては、これらのプリミティブな音声パラメータの摂動のみならず、より高度な変換を行うリアルタイム音声変換技術 [8] の活用が考えられます。これは、ある人の声をリアルタイムに他人の声に変える技術です。これを用いることで、例えば、集中がそれたときに先生の声が別の知り合いの声に変換されて聞こえるといった介入も可能になります。こういった可能性も踏まえて、音の変化とその影響についてさらなる調査を行うことが望ましいと考えます。

Q3. 長期的に使用しても、注意が戻る効果はあるのですか?

A3. 長期効果についてはさらなる検証が必要です。Adamsら [6] は一般的にシステム1に働きかけるアプローチには長期効果があると述べていますが、Mindless Attractor によるピッチ・音量の変化に対して慣れてしまう可能性は否定できません。しかしその場合でも、上述のようなリアルタイム音声変換技術を使えば多様な介入が可能になり、効果を維持できると期待しています。

Q4. そもそも授業がとてもつまらなく、聞く気がない時も注意を戻せるのでしょうか?またそれは良いことなのでしょうか?

A4. ユーザーの持つモチベーションと Mindless Attractor の効果の関連についてはさらなる検証が必要です。しかし「今後」のセクションで述べたように、ユーザーが能動的に機能をオン/オフできる聴覚の人間拡張技術という観点では、聞きたくない時はオフにするという使い道も考えられます。
同時に、そのような授業をしている先生へのフィードバックも必要となってきますね。本研究ではそうした方向性の議論はしていませんが、我々は以前リアルタイムに会話相手の挙動を解析して、フィードバックすることで、会話の質を向上させるシステム [9] を開発しました。この研究の知見や、本研究で開発したセンシングモジュールを組み合わせることで、先生側も恩恵を受けられるシステムの開発につながると考えています。

参考文献

[1] C. Thomas and D. B. Jayagopi. 2017. Predicting student engagement in classrooms using facial behavioral cues. In Proc. MIE@ICMI. ACM, 33–40.
[2] B. J. Dietvorst, et al. 2015. Algorithm aversion: People erroneously avoid algorithms after seeing them err. J. Exp. Psychol Gen. 144, 1, 114–126.
[3] R. J. Zatorre and J. T. Gandour. 2007. Neural specializations for speech and pitch: moving beyond the dichotomies. Philos. T. R. Soc. B 363, 1493, 1087–1104.
[4] J. W. Sullivan and F. D. Horowitz. 1983. The effects of intonation on infant attention: the role of the rising intonation contour. J. Child Lang.
10, 3, 521–534.
[5] J. Y. Jung and B. A. Mellers. 2016. American attitudes toward nudges. Judgm. Decis. Mak. 11, 1, 62–74.
[6] A. T. Adams, et al. 2015. Mindless computing: designing technologies to subtly influence behavior. In Proc. UbiComp. ACM, 719–730.
[7] R. Ghoddoosian, et al. 2019. A Realistic Dataset and Baseline Temporal Model for Early Drowsiness Detection. In Proc. CVPR Workshops. IEEE, 178–187.
[8] R. Arakawa, et al. 2019. Implementation of DNN-based real-time voice conversion and its improvements by audio data augmentation and mask-shaped device. In Proc. SSW. ISCA, 93–98.
[9] R. Arakawa and H. Yakura. 2019. REsCUE: A framework for REal-time feedback on behavioral CUEs using multimodal anomaly detection. In Proc. CHI, Vol. 572. ACM, 1–13.

この記事が気に入ったらサポートをしてみませんか?