見出し画像

トークイベントでUDトークを使ってみた!精度や使い方を紹介します

本記事は、2022/12/18にUDトーク公式からツイッターでいただいたコメントをもとに再構成しています。

SOCIALDIAの/ざっきーです。

12/16にSOCIALDIAが主催したトークイベント、「『会話を哲学する』『鶴見俊輔の言葉と倫理』刊行記念 モヤモヤする夜のための哲学(対談:三木那由他×谷川嘉浩)」にて、UDトークを使って字幕付き配信に挑戦しました。ご覧になった皆様、いかがでしたでしょうか。アーカイブも販売しておりますので興味のある方は是非こちらからご購入ください。(2022/12/19時点)

今回せっかくなので、SOCIALDIAとしてUDトークの精度やいいところ、課題についてまとめてみました。イベントなどを主催する方は是非参考にしてください。

他のサービスとの比較

SOCIALDIAでは、字幕付き配信への挑戦にあたって、いくつか文字起こしサービスを比較しました。

比較結果は以下の通りです。

比較表

今回UDトーク、Googleドキュメント、Zoom字幕、Amazon Transcribeの4つのサービスを比較しました。UDトークについてはこれから語るので置いておいて、他の3つのサービスについても補足します。

まず、Googleドキュメント。Googleドキュメントは端末のマイクをオンにして話しかけると、リアルタイムに文字起こしされる、非常にシンプルなサービスです。今回のイベントのチケットを販売したPassMarketの説明文を読み上げてみたところ、句読点なく淡々と文字起こしされました。精度もそこそこですね。(元文面はこちら

Googleドキュメント

次にZoom字幕です。こちらは有料版Zoomのオプション機能です。今回Zoomウェビナーで配信したため当初こちらを使おうとしていましたが、精度が悪く、採用を見送りました。英語の文字起こしだともう少しマシかもしれません。

最後にAmazon Transcribeです。SOCIALDIAで読書会の文字起こしをする際、実はAmazon Transcribeを使っています。音声データさえ取っておけば、データをAWS上にアップロードしてジョブを作るだけでサーバ上で文字起こしをしてくれます。精度は若干低いながらもこの機能だけで運営側としてはかなり楽です。Googleのクラウドサービス(Google Cloud Platform略してGCP)にも同様の機能があり、こちらも今度試してみようと思っています。

さて、この表を見ていただければわかる通り、精度が最も高いのがUDトークでした。ここからUDトークの使い方について紹介していきたいと思います。

UDトークの使い方

UDトークは操作が非常にシンプルでわかりやすく、公式サイトにマニュアルがあるので、詳しくはこちらを見てください。ざっくり説明すると、

【主催者側】
①スマートフォンでアプリをダウンロードする
②任意のユーザ名を決める
③「今すぐトークを公開する」をタップ
④表示されたQRコードを参加者に共有

【参加者】
①スマートフォンでアプリをダウンロードする
②任意のユーザ名を決める
③「トークに参加する」をタップ
④共有されたQRコードを読み取る

これだけで文字起こしを表示することができます。簡単ですね!このシンプルさがUDトークの魅力です。デフォルトで日本語を認識する設定になっているので細かい設定も不要です。

今回Zoom上にUDトークの字幕を表示する設定をしましたが、そのあたりもマニュアルが整備されており、非常にユーザフレンドリーです。

イベントでUDトークを使う場合にしておいたほうが良い設定

これまでに説明してきた通り、複雑な設定は不要ですが、イベントで使用する場合(リアルタイムに自動字幕を表示させる場合)に設定しておいたほうが良い設定があります。

1つめが、「バックグラウンドで音声認識する」です。初期設定だとスマートフォンがスリープ状態になると文字起こしが切れてしまうので設定変更をおすすめします。ただ、この機能はiOS版のみで、今回Androidを使用したため、途中で誤ってスリープモードにならないかヒヤヒヤしながら見ていました。次はiPadで使いたいと思います。

2つめが音声認識エンジンです。「トークを始める」から右上の…をタップすると上から4番目に「日本語の音声認識エンジン」という項目が表示されます。ここをタップすると「編集」「高精度」「Google」と3つから音声認識エンジンを選択することができます。


トークを始める
音声認識エンジン選択

高精度にすることで若干のタイムラグは生まれますが、文章として成立している文字起こし結果が得られやすくなります。デフォルトは「編集用」になっているため、設定変更をお勧めします。今回SOCIALDIAでは「編集用」を選択していたため、若干精度が低い結果だった可能性があります。次回からは高精度で配信したいですね。

UDトークのここがすごい!

ここで分かるのが、実はUDトーク、音声認識エンジンとしてAmiVoiceを使用しています。会社で使っている方もいると思いますが、このAmiVoice、とにかく日本語の文字起こし精度が高く、ビジネスシーンで非常に広く使われています。(私も何度か使ったことがあります。)GoogleやZoomは米国発ですし、日本語の認識はまだまだ発展途上かもしれません。UDトークが高精度で評判なのも頷けます。(そして無料!)

またUDトークには辞書機能があります。マニュアルにも記載がありますが辞書機能は事前に単語を登録しておくことで、音声認識エンジンが読みを認識し適切な単語に変換して文字起こしをしてくれます(アプリ内辞書)。これにより専門用語を適切に変換し、リーダビリティが高まることが期待できます。

さらにUDトークには公開辞書機能があります。登録した辞書を公開、共有しすることができます。これにより、SOCIALDIAであれば人文系の専門用語を登録し、みなさんと共有が可能です。UDトーク公式の公開辞書にはマインクラフトや古代エジプト関連が公開されていますね。


UDトークを使いこなすためにやってみたいこと

今回のイベントでは単語登録、辞書機能を使用せず配信しましたが、著書に出てくる専門用語をいくつか登録しておくと精度は上がりそうです。

辞書機能については公式サイトにこのように記載されています。

これらの辞書を設定するとこれらの単語の優先度があがるため誤認識結果に多く含まれるようになります(湧き出しという現象です)。

https://udtalk.jp/official_shared_dictionary/

つまり、辞書に登録した単語は、登録した読みをエンジンが認識するとどんな文脈であってもその単語に変換されるということです。何でもかんでも辞書登録すればよいというわけではなさそうです。

また、今回スマートフォン内蔵マイクで音声を拾ったため、登壇者にスマートフォンを受け渡ししてもらうシーンがありました。外付けマイクと接続するなど、現場次第でどのように機器構成、段取りを組むか検討の必要がありそうです。UDトークさんからのアドバイスはこちら↓


最後に

今回UDトークを使ってみた率直な感想は、「これを無料で使えるんですか!?」の一言です。精度が高くシンプルで非常に便利です。是非試してみてください。次回のSOCIALDIAのイベントにも是非ご期待ください!!

文責:ざっきー

さらに「いいね!」と思っていただけた方からのサポートも歓迎しております。頂いたお金はイベントでご登壇いただく先生方への講演費・場所代・さまざまなカルチャーへの寄付金などに充てさせていただきます。その他、ご希望のイベントなども募集しております。