[IUI2022採択] 不明瞭な音声も効率よく書き起こしするための機械学習とヒトの協働インタフェース

2022年3月24日 08:18

ヒューマンコンピューターインタラクション（HCI）と機械学習の融合をテーマにした国際会議 ACM IUI 2022 に、荒川（カーネギーメロン大学）と矢倉（筑波大学）が後藤先生（産総研）と共同で執筆した効率的な音声書き起こしのためのインタフェースを提案する論文 “BeParrot: Efficient Interface for Transcribing Unclear Speech via Respeaking” が Full paper で採択されました。本記事ではその内容について簡単に紹介したいと思います。

論文はこちら: https://dl.acm.org/doi/10.1145/3490099.3511164

1. 背景

音声の書き起こしは様々な場面で使われています。会議の内容を検索できるようにするためとか、耳の不自由な方が音声コンテンツの内容にアクセスできるようにするためとか。音声認識や音声合成のための訓練データを作る上でも欠かせません。しかしながら、音声を聞きながらその内容をキーボードで入力していくという作業はかなり大変で、時間のかかるものです。

幸い、我々には音声認識技術があります。特に深層学習の導入以降、その精度は格段に向上しています。なので、予め自動で音声認識しておき、その結果のうち誤っている部分のみを訂正していくというアプローチによって、書き起こしに要する時間を大幅に削減することができます [1,2] 。

ただし、これは音声認識がある程度以上の精度を示すことが前提です [1] 。もし音声認識の結果が誤りだらけであれば、それを訂正しようとすると却って時間が掛かってしまうというのは想像に難くありません。そして残念ながら、音声認識技術が特に苦手とするケースはまだいくつか残っています。

例えば、ノイズの多い音声 [3,4] 。特に、歴史上のスピーチなどが書き起こしされて検索できるようになると便利そうですが、ノイズがひどいものを自動で音声認識するのはなかなか難しいです。他にも、複数人が被りながら話しているような場合だと、人間には聞き取れても音声認識はできないというケースが見られます [3] 。

人間の力をうまく組み合わせることで、音声認識技術単体だとうまく認識できない不明瞭な音声でも、効率よく書き起こしできるようにならないか。そう考えてこの研究に取り組み始めました。

2. リスピーク (Respeaking)

その中で、NHK や BBC といったテレビ局で使われている手法 [5,6] が応用できるのではないかということに気づきました。それがリスピークです。

これは、ニュースやスポーツ番組の字幕をリアルタイムで付けるために使われていた手法です。具体的には、番組の音声をそのまま音声認識するのではなく、「リスピーカー」と呼ばれる人がその内容をシャドーイング（復唱）した発話を音声認識します。これにより、もし番組内の声がはっきりしたものでなくても、リスピーカーがそれをはっきりと復唱することで、高精度かつリアルタイムに字幕データを得ることができます。

同じ仕組みで、不明瞭な音声を音声認識するのではなく、それをユーザが復唱してもらえれば、図1のクリアな音声がある状態と実質的には変わらなくなります。ユーザの力を借りることにはなりますが、聞いた言葉を繰り返せばよいというのは、一から書き起こしをしたり、誤りだらけの認識結果を訂正したりするより楽そうです。

しかし、リスピークもそう簡単ではありません。詰まることなく聞いた内容を繰り返すというだけでも実は難しいものです。また、クリアに繰り返すことができなければ、結局それを音声認識したところで誤りだらけになってしまい、訂正の手間がかかります。実際、リスピーカーとして放送局の現場に立つまでには75時間ほどの専門トレーニングが必要 [7] といいます。

書き起こしの効率化のために、なんとかリスピークを使えないか。そう考えて、新たなインタフェースを提案しました。

3. BeParrot

我々はまず、リアルタイムに番組の字幕をつけるという目的で設計されたリスピークを、書き起こし効率化という文脈で再構成するところから始めました。リアルタイム性が求められないのであれば、ユーザが耳にする音声の再生速度を柔軟に変えることができます。滑舌が悪かったり、慣れていなかったりする場合はスロー再生した音声を繰り返せばよいのです。また、音声区間検出 [8] を使って、事前に音声を分割しておくことができます。これにより、ユーザのペースに合わせて作業を進めていくことが可能になります。

加えて、誰でもリスピークできるようにするための仕組みを2つ提案しました。1つは、パラメタの自動調整です。再生スピードや分割の基準となる長さといったパラメタを、ユーザの慣れに応じて適応的に調整するアルゴリズムを提案しました。ユーザが何度も同じ部分をやり直していたり途中で一時停止したりしていたら、きっと言い間違えたり追いつけなくなったりしているはずです。ユーザの使用状況からそうした状況を検知し、自動でパラメタを調整するようになっています。

もう1つは、ユーザへの発音フィードバックです。すでに述べたように、ユーザの発音がクリアでないと、復唱した発話を音声認識した結果に誤りが含まれてしまいます。そして、その誤りをあとから訂正することになります。逆に言うと、ユーザが自分の発話の認識結果のどこを訂正したのかというデータが蓄積されていくため、そこから「どんな単語や発音が誤認識されやすいのか」を分析してフィードバックすることができる仕組みとなっています。

4. 実験と結果

このインタフェースを使うと書き起こしの作業が効率化されるのか、検証を行いました。実験条件としては、TED のクリアな音声と古い講演の音声、そして複数人が話しているラジオの音声という3種類の音声を用意して、比較をしました。

その結果、それらの音声をそのまま音声認識した結果を訂正した場合に比べ、書き起こし作業にかかる時間を短縮できることが確認できました。特に、古い音声やラジオの音声といった不明瞭な音声を用いた条件では、大幅に効率化されることが確認されました。

また、使用している中でパラメタがどのように調整されていったのかを解析すると、面白い発見が得られました。下図はその推移を表したものですが、ユーザが試行錯誤する中で、再生スピードが少しずつ自動的に下がっていったのが分かります。さらに、ある程度の遅さになってユーザが問題なく追いつけるようになればスピードの調整が止まること、そして、その「問題なく追いつけるスピード」がユーザによって異なっていたことも分かりました。これは、ユーザの習熟度に合わせて適応的に調整することの重要さを支持するものです。

その他、ユーザの認知負荷やコメントも分析していますので、詳細はぜひ論文をご覧ください。

5. 実験と結果

まとめると本論文では、以下のような貢献をしました。

・音声認識技術とユーザの力をうまく組み合わせることで、不明瞭な音声でも効率的に書き起こしできるインタフェース BeParrot を提案

・リスピークを書き起こし作業に特化した形で再設計し、パラメタ自動調整と発音フィードバックという新たな仕組みを開発

・実験を通して、専門トレーニングを受けずともリスピークを応用して書き起こし作業を効率化できることを確認

これからの展望としては、音声認識技術側もカスタマイズしていくことで、さらなる効率化も可能ではないかと考えています。今回は、特定の音声認識技術に限らずに応用可能であることを示すために、敢えてカスタマイズしませんでしたが、認識技術側を適応的にしていくこともできるでしょう。

6. FAQ

Q1. このインタフェースを使うことで、最終的な書き起こしの精度が損なわれるということはないのですか？

実験では、書き起こし結果の正確さについても音声をそのまま音声認識した結果を訂正した場合と比較しましたが、有意な差はありませんでした。自分の復唱した発話の認識結果を訂正することができるため、最終的な書き起こしには多少の表記ゆれが残っている程度となっていました。

Q2. パラメタの自動調整と発音フィードバックのどちらがより効果的だったのですか？

今回の実験では ablation study を実施していないため、定量的に比較することはできないのですが、それぞれ異なった形で効率化に貢献していると考えています。パラメタの自動調整はすぐ使えるようになるという点で短期的な効果を産み、発音フィードバックは話し方を気をつけることでその後の認識結果の精度が持続的に改善されるという点で長期的な効果を産みます。

1つ確かなのは、この2つの仕組みがないとなかなかリスピークのハードルの高さは乗り越えられないということです。事前検証として、これらを実装していないプロトタイプを作ってみたところ、なかなかユーザは使いこなすことができませんでした。

Q3. どのくらい不明瞭な音声であれば、このインタフェースを使うべきという基準はありますか？

実験では、このインタフェースによって比較条件よりも書き起こしが遅くなるという結果は見られなかったため、基本的にはどんな音声でも応用可能であると考えています。既存研究では、音声認識結果の精度（WER）が30%より悪い場合、それを訂正するよりも一から書き起こした方が速い [1] という結果もありますので、そういった場合は BeParrot を使うことで大幅な効率化が達成できるでしょう。

参考文献

[1] Y. Gaur, et al. 2016. The Effects of Automatic Speech Recognition Quality on Human Transcription Latency. Proc. W4A. ACM, 23:1–23:8.
[2] M. Sperber, et al. 2016. Optimizing Computer-Assisted Transcription Quality with Iterative User Interfaces. Proc. LREC. ELRA, 1986–1992.
[3] C. Spille, et al. 2018. Comparing Human and Automatic Speech Recognition in Simple and Complex Acoustic Scenes. Comput. Speech Lang. 52, 123–140.
[4] V.A. Trinh and M.I. Mandel. 2021. Directly Comparing the Listening Strategies of Humans and Machines. IEEE/ACM Trans. Audio Speech Lang. Process. 29, 312–323.
[5] A. Marsh. 2006. Respeaking for the BBC. inTRAlinea 1700, 1 page.
[6] T. Imai, et al. 2002. Speech Recognition with a Re-Speak Method
for Subtitling Live Broadcasts. Proc. SLP. ISCA, 5 pages.
[7] A. Pražák, et al. 2020. Live TV Subtitling through Respeaking with Remote Cutting-Edge Technology. Multimed. Tools Appl. 79, 1–2, 1203–1220.
[8] J. Sohn, et al.. 1999. A Statistical Model-Based Voice Activity Detection. IEEE Signal Processing Lett. 6, 1, 1–3.

この記事が気に入ったらサポートをしてみませんか？