見出し画像

音声→テキストの精度を上げよう、文字起こしの認識率を格段に上げるTips

BONXはBONX for BUSINESSで話した音声をテキスト化する文字起こし機能を先日リリースいたしました。業務中、コミュニケーションした内容が、そのまま文字起こしされたら便利ですよね。音声を文字起こしするサービス自体はいくつもありますが、使ってみると意外と認識率の精度が悪くて、そのまま使わなくなった方もいらっしゃると思います。しかし、文字起こし機能をこのまま使わないのは業務効率を飛躍させる上で非常にもったいないことです。

今回、音声テキスト化エンジンは、目まぐるしい速度で進歩をしているので、「会話をするユーザー側が少し工夫することで認識率が上がるのではないか」という仮説を立てました。実際にBONXチームで、いろいろと試す中で、文字起こしの認識率をあげるのに必要なことが分かってきました。現場で文字起こし機能を活用しているセールスと、開発を担当したバックエンドエンジニアに協力してもらった実用性のあるTipsですので、必見です。

文字起こしを活用している、セールスメンバーにコツを聞いてみた

セールス
文字起こし機能をβ版のリリースから試してきましたが、話し方で認識率がかなり変わります。上手く認識させることができれば、業務で活用できるレベルで出力されるので助かっています。文字起こしの認識率を上げるコツとして、一番大事なのは、話す内容を「短く」「シンプルに」、そして話すスピードを普段より「ゆっくりと」ということを意識することです。
そして、できるだけ口語的な話し方を避ければ、より認識率があがります。例えば、「メール送っときます」ではなく、「メールを、送っておきます」という感じです。また、「あのー、えー」などの感嘆詞を入れてしまうと、全体的な文章の流れを音声テキスト化エンジンが認識しづらくなるので、注意が必要です。

加えて、どうしても会話が長くなる場合は「間」を意識することが大事です。とくに文末は気持ち長めに間を置き、「、」であれば一瞬、間を置くイメージです。これだけで文章と漢字変換の精度があがります。また、使っている実感として、文字起こし機能は「何を言うかが決まっているプレゼンや進捗の共有」に向いていると感じました。

画像1

※上記を意識して会話を行った、実際の文字起こしの画面。

文字起こし機能の開発担当の社内エンジニアに聞いてみた

バックエンドエンジニア
文字起こしの精度の高さは、人の声質や周辺の外部環境に影響は受けますが、認識率は70%くらいです。文字起こし機能の開発のテストで、ひたすら適当な音声データを使って、どれだけの精度で文字起こしが、されるのかを確認していました。誰かに話してもらって録音した音声をテストをしたり、営業メンバーが実際にするような会話からテスト音声を抽出したり、台本を読み上げるような会話では実用性に欠けるので、色んなパターンを試しました。

発話のコツとしては、できるだけ標準語のイントネーションを意識して、少しハキハキ喋ることを意識するといいと思います。ユーザーの話し方で認識率が変わるので、文字起こし機能を想定した話し方でやり取りしてもらうと後々の出力データが綺麗になると思います。しかし、コンテクストを理解しているわけではないので、同音異義語を間違えたり、珍しい人名ですと認識が難しいことがあるとは思います。

利用される業界や現場によって使われている言葉をテキストエンジンに学習させて、より認識率に磨きをかけたものを出していけたらなと思っています。

開発側と機能を使う側の双方に、文字起こしのコツを聞いてみて

画像2

文字起こしにおいて大事なのは、ユーザー側の発話の意識ということが分かりました。高精度なテキストエンジンが全てではなく、話し手のちょっとした気遣いで大きく変わるというのはおもしろいですね。エンジンやプログラムにも思いやりが必要ということです(笑)。業界特有の言葉などをテキストエンジンに学習させることも可能なので、特定の業種に特化した音声サービスが出るかもしれないのも楽しみです。

この記事が参加している募集

私のイチオシ