見出し画像

文字起こし精度が悪いから議事録に使えない?いや待て

皆さんは文字起こしツールを使っていますか?
音声認識機能を活用して音声データをテキストデータに変換してくれるものです。
個人的に無くてはならない超便利ツールです。

既にスマホにも標準搭載されており、音声入力も簡単にできるようになりました。実はこの記事もiPhoneの音声入力で書いています。
音声変換するには、例えば次のような手段があります。

  • iPhoneの音声入力機能

  • Microsoft Teamsの文字起こし機能

  • AIモデルWhisperの活用

特に最近は音声認識ソフトの性能が上がっており、漢字の誤変換や音声認識不良も減ってきています。
そんな中、私の周りでもよく聞くのが……

「精度が悪くて使えない」

という声です。

特に、議事録作成を自動化する話題で聞きます。気持ちはわかります。ただどうしても専門用語がある中で認識精度を100%にして、漢字の変換精度まで追い求めてはいつまでも活用には繋げられません。

今回、文字起こしツールは目的を達成するための手段であるとして、いくつかの考え方を紹介します。

目的は記録を残すこと

議事録を書く目的は、会議の内容や決定事項を記録して、認識違いを防いだりいつでも見返したり出来るようにすることです(細かい内容は人によって変わるとは思います)。

つまり、どれだけ文字起こしツールの精度が悪くても、議事録が完成できれば良いのです。

会議参加者なら理解できる

議事録作成に関して、精度を理由に反対する方のほとんどが、実際にツールを使って議事録を書いたことがありません。

作業性の落ちるイメージをもたれるかもしれませんが、まずは使ってみてください。会議の参加者が議事録を書く場合、意外と精度は要りません。既に会議内容を知っているため頭の中で勝手に誤字を補完してくれます。

生成AIがあればOK

近年ではChatGPTをはじめとした生成AIが出現しました。このAIは、タイピングミスしたプロンプトでも、お構いなしに充分な出力をしてくれます。
つまり、文字起こし精度が多少悪くても内容を理解し整った議事録を作ってくれます。

いつ話した内容なのか調べやすい

音声データを使って議事録を書く時に地味にストレスを感じるのが、聞きたい話題の箇所に再生時間を合わせることです。

例えばウェブミーティングツールであるTeamsで文字起こしした時、テキストと共に再生時間を表示してくれます。 
この再生時間から、音声を聞く箇所を特定できるため、作業性の向上につながります。

会議中に書けない?

これまでは録音した音声を会議後に活用する方法紹介してきました。そもそも会議中に書けないでしょうか?

自分の耳で聞いた内容の中で、重要なものを抽出し、即座にまとめる、ましてや議論に参加しながら書くのは容易ではありません。

こればかりは、普段から意識して書きながら参加するしか方法は無いと思います。ただこれができるようになると、議事録を担当してない日でも話の展開が上手くなったり、要点が的確に押さえられるようになったりとメリットも多いため前向きに取り組んでみてください。

最後に

とにかく、まずは使ってみてください!
思った以上に作業の効率が上がります。

最後にブログの宣伝です。
文字起こしAIのWhisperを自身のPCで実装する方法を解説しました!

ケムファクという名前でプラントのエンジニア向けに技術ブログを書いていますのでご興味あれば覗いてみてください。

この記事が気に入ったらサポートをしてみませんか?