見出し画像

【比較】音声認識のデータってどうなってるの? プライバシーポリシーを調査

こんにちは、情報企画部の秋田です。プレゼンで話している内容を音声認識で字幕にして、画面内に表示する「プレゼン自動字幕」について、さまざまな方法を試してみたので、ご紹介していきたいと思います。

「自動字幕」お手軽設定からセキュリティも解説

このシリーズでは、プレゼンに自動字幕をつけるお手軽方法やセキュリティ面での検討、javascriptでの自作方法など、目的に分けて4回でお話しします。もしよろしければ、第1、2回もお読みくださいね。

1:プレゼン自動字幕の簡単な設定方法
2:音声認識のサービス比較
3:
(本エントリ)盗聴されない?セキュリティを解説!
4:リモート会議で字幕をつける方法

気になるのはセキュリティ

 1回目のエントリで、Googleの音声文字変換アプリの便利さについて紹介したのですが、気になるのは「字幕の内容や音声」の取り扱い。どこかほかの組織に漏れてしまわないか心配な場合があるじゃないですか。それについては、どうなのかな~っと思い、調べてみました。

画像1

 今回、Googleのスマホの音声文字変換の他に、javascriptのWeb Speech API 、Google ドキュメント、microsoft 365などを試しました。どのサービスも、だいたいは音声データをそれぞれのサーバーに送って、文字列に変換してスマホやパソコンに送ります。このとき変換結果がサーバーに残っているといやだよね、という話です。

 それぞれ名だたる会社なので、心配する必要は無いかもしれません。でもTwitterで大規模乗っ取り事件が2020年7月に起きました。この原因については、ITmediaの記事には、『Twitterは「この攻撃は、特定の従業員に判断を誤らせ、人間の脆弱性を悪用して内部システムにアクセスするという巧妙で協調的な手口によるものだ」と説明した。』とあります。
 ということは、どんな経験豊かな企業が作るにせよ、利用するシステムに字幕が残っていると、予期せぬタイミング漏れる可能性はあるわけですよね。確率はとっても低そうですが。

画像2

 なので、このような事故にもしも巻き込まれたら困るような情報がある時は注意したいと考えたわけです。細かいかもしれませんが、社外秘情報を扱うとなると、もしもの時が気になりますよね。

いろんな方法を調査

 私なりに、こうしたサービスを提供している会社の「データの扱い」について次の観点でまとめてみました。

①音声/テキストファイルが先方のサーバーに残らないこと
②先方のサーバーに保管されるとしても暗号化など対策がされていること

 この二つをあげたのは次の理由です。①は流出するデータがないので一番安心。②はデータが流出しても暗号化されているので内容はわからない。この二つが明記されていると安心です。

Googleのスマホの音声文字変換

 まずは私も第1回で使ったGoogleの音声変換ソフト「音声文字変換&音検知通知(live transcribe)」について。

 アプリを提供するGoogleのandroid.comによると、『会話の内容はデバイス内で安全に保護され、サーバーに保存されることはありません。』と記されています。システム側に音声データやテキストは残っていないようです。

Web Speech API


 「Web Speech API」というのは、Webページ上で音声認識ができるJavaScriptのAPIです。

 噂によると内部ではGoogleのCloud Speech APIが動いているようです。ここには、「Chrome supports the Web Speech API, a mechanism for converting speech to text on a web page. It uses Google's servers to perform the conversion.」と記されています。ギークフィードさんのブログとかクレスコエンジニアリングさんのブログでもCloud Speech APIをつかっているようだと紹介されています。
 ということで、Cloud Speech-to-Textのデータロギングを見ますと、「デフォルトでは、Speech-to-Text はお客様の音声データや文字起こしを記録しません。」と記されています。これもシステム側にデータは残っていないようです。「デフォルトでは」という部分がとても気になりますが、データロギングプログラムを有効にすると記録されるそうです。一方、Web Speech APIにこの設定がありません。またWeb Speech APIのドキュメントを見ても、有効・無効について言及はありません。少し微妙です。

Google ドキュメント

 Googleドキュメントには「音声入力」という機能が用意されています。マイクで入力した音声を、Googleドキュメントに記録するというもので、このドキュメントはGoogleドライブに保存されます。ということは、変換結果はGoogleのシステムの中にあるわけです。

 Googleのプライバシーポリシーで「Google のサービスはすべて、お客様の情報を継続的に保護する強力なセキュリティ機能を備えています」と宣言しています。しかし保存されたデータの暗号化はサービスによるようです。

 Googleドライブだと、ビジネス向けのGoogle Workspace(G suite)を利用すると、保存するデータの暗号化を保証されています。そうで無い場合は社外秘情報など、外に漏れたら困る情報では使わない方が良さそうです。

Microsoft 365 (office365)

 MS Word、Outlook、PowerPoint、OneNoteの「デクテーション」という機能で音声から字幕をつくることができます(Microsoft 365 でのディクテーション)。

 Microsoft はWEBの「Microsoft は音声認識テクノロジを改善しながら、プライバシーをどのように保護しますか?」に、次のように記載しています。
●音声クリップは、匿名化された後、安全な暗号化されたサーバーに保存されます。(音声クリップとはオーディオ録音のことだそうです。)
●Office アプリとサービスには音声機能がありますが、現在、お客様の音声クリップをサンプリングして聞くことはありません。
●Microsoft Teams 会議のレコーディングなど、他のサービスによって保存された他のオーディオ録音にも影響しません。
 
 サーバにデータは残るようですが暗号化されているので、たぶん流出したデータを手に入れてもたぶん解読はできないのでしょう。こう考えると安全そうです。

 ただ、後述のAzule speech-to-text APIの説明では、『データを残さないよ』と明記していますので、そちらもご覧ください。

UDトーク

 UDトークはAmiVoice Cloudという日本語音声認識エンジンを使っているそうです。利用するには無料版と、有料の法人版があります。
 無料版はWEBページに「音声データを蓄積して音声認識の精度向上に再利用をしています。」、さらに個人情報や機密情報を含んだ内容には使わないように注意を促しています。法人版(有料版)の利用規約の第4条の4には、「本アプリに入力されるユーザーの音声については、収集、分析、再利用はしない。」と記されています。
 ここまで明記されているので法人版ならサーバーに残さないと想像できます。自分のところで注意すれば安心そうです。

Microsoft Azure speech-to-text API

 こちらは私の方では試していません。でも調べると、Speech to Textのページに、「お客様のデータはお客様が管理します。音声入力や文字起こしデータは、音声処理中に記録されることはありません。カスタム音声データとモデルは、いつでも表示や削除することができます。データはストレージに格納されている間、暗号化されます。」と記されています。
 データはmicrosoftのサーバーには残らないので、自分のところを注意すれば大丈夫ということになりますね。

次回(4月中旬頃)に続く

 次回は、リモート会議にも字幕をつける方法について紹介します。

(情報企画部・秋田仁士)