見出し画像

オンライン文字起こし対決!Google vs. Teams

こんにちは!
サービス&デザインアシスト部のマネージャーです。
新年度がスタートしてから、早いことにもう1ヶ月以上が経過しましたね。ここ最近、ちょっと寂しい更新状況になってしまいました。
(新年度も更新頑張るぞ!と自分に喝)

さて、今回は、オンラインの文字起こしを使ってみるという企画をレポートします!

最近、議事録を自動で作成するサービスが出てきています。
そのようなサービスを利用しなくとも、わたしたちが普段仕事の中で使っているサービスには、文字起こし機能がついていました。そこで、実際どの程度の精度なのか、文字起こしの機能を試してみることにしました。

使用するサービスと設定

  • Microsoft365のTeams:レコーディング機能を使用

  • Google:Googleドキュメントを全員で共有し、音声入力機能を使用

Googleドキュメントの設定はこのように行います。
Teamsの設定はこのように行います。

サービスを比較してみる

会話の中の登場人物

  • ジェーン:筆者

  • ハリー:エンジニアリングマネージャー

  • トニー:Webエンジニア(最近香水にはまった)

  • ソフィ:アプリエンジニア(筋トレに目覚めた)

(名前は各自好きなドラマの主人公など選んでいます!)

会話のサンプル

最初は設定などで戸惑いつつ、TeamsとGoogleドキュメントの録音をonにしました。Googleドキュメントのマイクonになるタイミングなどがわからず、そのあたりの会話を抜き出してみると・・・。

Google

「ハングアウトでしたっけ 今どう どう分かんないんですけど使うならもっと便利に使えるみたいなのあってもおかしくない気がします 今自分はスピーカーにしてて マイクオンにした状態にしてあるのでそれで みんなの音 拾えそうみたいな感じですね」

Teams

ソフィ:Googleのハングアウトでしたっけ?今どうどう?
ソフィ:分かんないんですけど。
ジェーン:うん、うん。
ソフィ:お。
ソフィ:使うならもっと便利に使えるみたいなのあってもおかしくない気がします。
ジェーン:うん。
ジェーン:今あの。
ソフィ:うん、うん。
ジェーン:自分をスピーカーにしてて、あのマイクをオンにした状態にしてあるので。
ジェーン:まあ、それでみんなの音ひろえそうみたいな感じですね。
ソフィ:ああ、はい、はい。

どのような違いが?


どちらの文章も読みづらいですが、敢えて全く編集していない文章を載せています。
比較すると、Googleは句読点が無いため読みづらく、Teamsは会話として表示されている、というのが一目瞭然ですね。
では、違いを整理してみます。

Google

  • Googleドキュメントの、録音ボタンを押しているPCで(マイク、スピーカーから)拾った音を文字に起こす方式

  • 改行が無いため、文の途切れ目がわからず、誰が話したかもわからない

  • 漢字、カタカナは自動変換される

  • 句読点は入らないが、会話のブレスのタイミングで半角スペースが入る

  • ドキュメントからフォーカスが外れると、録音は勝手に止まる(録音し続けている場合でも、途中で切れることが多い)

Teams

  • 会議そのものを録音する方式

  • 話している人毎に出力され、タイムスタンプも入っている(文中では省略しています)

  • 漢字、カタカナは自動変換される

  • 句読点が自動で入る

  • 声が被っていた場合でも、相槌は全て文字に起こされる

  • 録音は会議が終了するまで続く

Googleの場合は、文章を書くためのドキュメント用アプリなので、「自分が話した言葉をそのまま文字に起こす」という点を主眼に置いています。そのため、話が始まるたびに、毎回音声入力をonにする操作をした方がよいようです。
Teamsの場合は、複数人での会議且つ、出席者が明らかになっているため、「会話形式で文字を起こす」ことができています。
そもそも、サービスの目的が違うため、このような出力の違いになるのでしょう。
しかし、Googleの方は、句読点が一切入らないため、文章としての完成度はTeamsに軍配が上がりますね。Teamsの会話中の文字起こしは、先に句点が入力されて、途中の文章が追加されていく動きをしていた点も興味深いところでした。

Teamsの会話の精度

次はTeamsの会話がどれだけ忠実に文字を起こすことができるか、サンプルの会話をあげてみます。

ジェーン:ハリーさんはゴールデンウィークはどうでしたか?
ハリー:あのキャンプ前半をキャンプ行って。
キャリー:O。
ハリー:最後の土日で土曜日にあのう赤レンガで。
ハリー:カレン画像このところで、あの。
キャリー:はい。
ジェーン:うん。
ハリー:なってるんです。野外野外映画館見たい映画野外映画というか。
トニー:ああ。
ジェーン:うん。
ハリー:ちょうどみなとみらいで赤レンガと。
ハリー:ええと、なんだっけ?ワールドポーターズと。
ハリー:ええ、どこかでさんカ所ぐらいでやってたんですけど。
ジェーン:へえ?
ハリー:そのレンガ倉庫のところはジブリをやっててコクリコ坂をやってました。
ジェーン:O。
ジェーン:見に行ったんですか?
ハリー:見に行きました風。

はい、わかりますよ、読むのが非常に苦痛ですよね。
キャンプに行ったことと、赤レンガ倉庫で野外上映の映画を見たということがなんとなくわかると思いますが、そのまま文字に起こすと「あのぉ」「えーっと」など、息継ぎの言葉が入るため、何を言っているのか掴みにくくなります。(謎の相槌「O。」も気になる。)
人の会話というのは、相槌や言い直した言葉を全てを文字にすると読みづらいというのがよくわかりますね。

しかし、Teamsが最も優れているのは、この会話がリアルタイムに画面表示されることです。聞こえづらかったり、耳の不自由な方の場合でも会議の状況が読み取れるため、便利な機能です。

さて、今回は「音声から文字を起こす」という機能を試してみましたが、GoogleとMicrosoftそれぞれ特徴が出て、興味深い結果になりました。
文章としての完成度は、句読点を概ね適切な位置に打つことができているTeamsが優勢です。
漢字変換については、変換の正誤はどちらにもあるため、優劣つけがたいレベルに感じます。
後から議事録を書き起こしたいという場合は、文章として読みやすいTeamsを使う方が楽でしょう。
用途によって、使い分けするのが一番良いようです。

それでは、また。