見出し画像

Zoomに音声認識字幕窓を追加してみた

新型コロナウィルス感染防止のための外出自粛によりWeb会議が脚光を浴びています。なかでもZoomは(セキュリティ問題が騒がれてはいるものの)通信量の軽さやわかりやすいUIのため、多数の勉強会やイベントに活用されています。

この記事では、Zoomの字幕機能について確認したところ、現時点では翻訳などの専門参加者を設定して入力してもらえる機能に留まっている(自動文字起こしや翻訳機能も将来の機能開発予定には入っているようですが。)ことから、今ある各種アプリを連携して疑似的な音声認識字幕機能をZoomに実装する方法を紹介します。

0.全体構成(アイデアの概要)

Zoomの音声認識字幕機能といっても、Zoomの字幕機能を拡張するのは無理なので、会議参加者の音声を認識して文字起こしした内容を表示する参加者を「音声認識字幕」として会議に参加させることにしました。つまり、

(1) Zoomの音声を音声認識アプリに入力する。
(2) 音声認識させる。
(3) 音声認識アプリの表示をZoomの画面として取り込む

の3つを実現しないといけません。ここで、(2)はGoogleドキュメントの音声認識機能を使います。今回の試作を数回実際のZoom会議に導入してみて、結構好評だったのですが、その要因のほとんどはGoogleの音声認識エンジンの優秀さだと思います。(いやまじで。数年前の音声認識のレベルとは比較になりません。これが無料とは。。。Google恐るべし。)

1.Zoomの音声を音声認識アプリに入力する

参考にさせていただいたのは、以下のひでさんの記事です。私がいろいろ書くより、こちらの記事を見れば、Googleドキュメントに音声ファイルを入力して音声認識できると思います。
音声データを自動文字起こしする方法とは?【Windows】VB-Audio Virtual Cable
あと設定するのはZoomの音声をGoogleドキュメントに入力する設定です。これはZoomのスピーカーを上記のVB-Audio Virtual Cableに設定するだけです。(下図で、Zoomの左下マイクアイコンの横の^をクリックして出てくるメニューで、スピーカーを"CABLE Input(VB-Audio Virtual Cable)"にする)

VirtualCable設定

ここで注意して欲しいのは、動作確認をするときはZoomでしゃべる端末と、音声認識用端末の2台を用意して欲しいということです。一つの端末でやろうとするとハマります。上図でスピーカーをVirtual Cableにして、マイクを普通の入力(例えば上図で"マイク配列")にすればしゃべった内容がVirtual Cable経由でGoogleドキュメントに伝わると思いますが、うまくいきません。なぜなら、Zoomでは自分のしゃべった音声はスピーカーには流れないからです。(ハウリング対策ですね。)

2.音声認識させる(Googleドキュメントの音声認識)

ここも前節のひでさんの記事を参照してもらえれば問題ないので、Zoomの音声字幕として使う場合の設定Tipsを。初期設定だと文字が小さい(11Pt)のと、余白が大きすぎるので、文字を大きくする(私の環境では36Pt位が良かったです。)のと、表示をズームして200%にして、横位置を調整して画面いっぱいに音声認識結果を表示するとよいです。

Googleドキュメント設定_前

Googleドキュメント設定_後

3.音声認識アプリの表示をZoomの画面として取り込む

ここは、要するにZoomのWebカメラ映像として、Googleドキュメントの窓を入力できればいいわけです。こちらのLonely Mobilerさんの記事を参考にさせていただきました。
ManyCam を使用してゲームやデスクトップ画面の配信を行う
ZoomでのManyCam(仮想Webカメラ)の設定については、こちらの品川遊さんの記事が参考になります。
Zoomのリモート会議で美少女として参加する

こちらの注意点としては、ManyCamではデスクトップか、デスクトップに表示しているアプリの窓の"領域"を取り込むので、Zoom等のポップアップで取り込み領域にGoogleドキュメント以外のアプリが上に表示されるとそのまま配信されてしまうという点です。これはマメに確認して常にGoogleドキュメントが上になるようにしないといけません。
また、Zoomの仮想背景も外しておく必要があります。

4.その他気づいた点など

Googleドキュメントの音声認識機能は素晴らしいのですが、雑音が入ると認識が自動停止することがあります。こまめに見て、切れたらマイクをONするようにしましょう。OFFになっていなくても、さすがに処理が追い付かなくなるとフリーズするので、そうなったらOFFしてしばらく様子見(溜まっていた認識分が掃き出される)して、ONにしましょう。

男性の声は拾いやすいのですが女性の声は拾いにくいようです。また、ヘッドセットなどの口元マイクの集音はかなりの精度で認識されますが、PC内蔵マイクによる集音は、周辺ノイズの影響でしょうか、認識精度が低いようです。

話者が変わると認識精度が落ちます。Zoomで画面共有しながら講演者が切り替わるような場合は、講演者の切り替わりに合わせてマイクを一度OFFして、ONにすると良いようです。

5.まとめ

(1) ZoomとGoogleドキュメントの連携はVirtualCableを使う。
(2) GoogleドキュメントはZoom参加者窓に合わせよう。
(3) ZoomへのGoogleドキュメント画面入力はManyCamを使う。
(4) 配信時は結構マメに音声認識マイクのON/OFFをする必要あり。

でした。ご参考になれば幸いです。

この記事が気に入ったらサポートをしてみませんか?