見出し画像

「Notta AI」文字起こしの精度は?

AI文字起こしツールを選ぶときに、何を重視するかというと、
皆さん精度と言われます。
本当に精度で選ぶのが良いかどうかは後述しますが、
Nottaの精度はどうかというと、

結論から言うと、良いと思います。

他のツールと比較すると…。

どのツールもわずかな差かなぁ。という感じです。

精度は話し方や声、会話の流れによってだいぶ違うと感じてます。あと、発音が結果に大きく影響しているのではないかと思います。たぶんどの文字起こしツールも同じ課題を抱えているのではないでしょうか。

1ヶ月で20回以上の会議やセミナー、打合せなどなどにNottaを使用した結果、2024年8月現在のNottaの文字起こし精度と精度を上げる方法、そもそも精度にこだわる必要があるかなどをまとめまてみました。
※ちなみに私がNottaを気に入っている部分はAI要約なので、それはまた別の記事にしたいと思います。

文字起こしの精度

理路整然と説明しているところや、主題に対して会話がスムーズに行われているところ、活舌が良いところはほぼ正しく文字起こししてくれました。

以下が精度が高かった文字起こしです。

営業会議、報告会など

目的がはっきりしていて、その中で何を話し合うか項目が決まっている、
話し合いもテーマ毎に順番に議論が進んで行く会議。専門性のある話題の場合は一般的な用語を単語登録しておくと精度が上がります。

セミナーや研修

参加者に聞かせることが目的で、話者が一人、あるいは複数でもお互いの会話がかぶらない、相づちも一呼吸置いてから次の人が話し始める。リスナーの聞きやすさが重要なセミナーなどは、Nottaも聞き取りやすいようで精度が高いです。

皆が順番に相手の意見を尊重して、会話がかぶることない穏やかな会議の文字起こしはとっても正確です。話者もきちんと識別してくれます。

しかし、20回以上Nottaで議事録を作成しましたが、残念ながら、こんな落ち着いた会議って無いです!

穏やかな話し方をする同士の二人の報告会でも、相手の話が終わった後、間髪入れず返事をして、Nottaには一人の人が話していると認識されているところが多くありました。

ただ、会話としては、しゃべって一呼吸、相づちも一呼吸待って、なんてしてたらかなりゆっくりペースのイライラする会議になるでしょう。
精度が上がる会話のイメージは、ご長寿高齢者との会話です。ゆっくり、はっきり、一言一言がきちんと伝わるように一節を短く区切って話す。ビジネスの現場や若い方同士の会話ではあまり現実的ではないですね。

では精度が悪かった物は

営業企画会議、研究会

話者が考えながら話す。議論を戦わせる会議の精度は低いですね。
理由は精度を落とす話し方でお伝えします。

精度を落とす話し方

けっこう意味不明な事を言っている

研究会のような、色々な情報を元に考えながら意見を出し合う会議の文字起こしは少し難しいようです。
Nottaを使い始めてから気づいたんですが、考えながらの発言には人の耳でも聞き取りにくい言葉?音?が結構入っていました。人によっては一節の中でも、内容が前後したり、言い直したり、「何々、いや違う、あれこれ…、や、何」なんて、思わず「落ち着け!!」と言いたくなるような会話をしています。
人同士だと、試行錯誤の部分が不要だった場合、最後に「こうです。」と結論が出た時点で、まるっと記憶から消すんでしょうね。「あれこれ」のなかにアイデアのヒントがあると、誰かが拾って話を深掘りしてる。そうやって会議が進んでるんだなぁと、なかなか面白く感じています。

こういうところの文字起こしの精度を高く求めても、あまり意味が無いかなと思っています。文字と録音が同時に保存されているので、疑問があれば音声を振り返れば良いので。

発音の影響は大きい?

私のセミナーのアンケートで、講師について感想を自由に記入してくださいという項目があるんですが、多いときは9割ぐらい「声が聞きやすい」と書いていただいています。マイクなど機会を通すとさらに聞きやすくなるそうです。
録音を聞きながら文字起こしされたものを確認出来る便利な機能を使って、正しく文字起こしされているか確認してみたところ、私が話した部分は、固有名詞など一般的ではない言葉以外は、わりと正確でした。

IT用語はちょっと苦手のようです。
「LAN」が「欄」や「ランド」になっていたり、「サーバーのOS、Windowsサーバー、Linux (Ubuntu)」は、分からなかったようで、違う言葉になっていました。

ただ!

私の発音が悪いからかもしれません。
カタカナ英語は分からないのかも。

方言も厳しいかな。文字で表記すると同じだけどイントネーションが違う場合がありますよね。お客様と話していたときに「関西の出身ですか?なんとなくイントネーションがそうなのかなと。」と言われたことがあります。(岡山県出身です)そういうのも、違う文字になっている気がします。

生成AI研究会の会議で「私はNottaを使ってます。今日、私のnoteにも挙げました」と話した部分が「私は持った使ってます。今日私のノートにも挙げました」になりました。
発音が違ったみたいで、Nottaの話をしてるのに固有名詞として認識されなかったんです。

自分の発音では違う言葉として認識される事が分かっているときは、単語登録をしておくと正しく文字起こししてくれます。
読み「ノッタ」表記「Notta」カテゴリ「固有名詞」で単語登録したら、次の会議ではちゃんと「Notta」としてくれました。すごいです!

話し方も大事

語尾をはっきり発音しなかったり、話の途中がごにょごにょと聞き取りにくかったり、早口になると精度が落ちます。どこが境目か分からない話し方も正しく文字起こししてくれません。
対面で話しているときは何を言っているかちゃんとわかっても、zoomなど機会を通すと聞き取りにくい声も精度が落ちます。
人間の私も聞き取りにくかったので、「ゆっくり話してください」とお願いしたら、文字起こしが正確になってきました。

相手に伝わりやすい話し方をする練習にもなりそうですね。

プレゼンの練習をNottaでリアルタイム文字起こしですれば、
リスナーが聞き取りにくい部分や意味が伝わりにくい部分をチェック出来そうです。
使い方はアイデア次第で広がりそうです!

精度は重要?

本当に精度で選ぶのが良いか?

最初に書いたことですが、私の実感では、もっと良くなるとうれしいが、現状でも「困ってない」です。
そして、2024年8月の精度はこうでも、1年後は?
今のITの進化を見ると、現時点の精度の優劣は明日変わっていてもおかしくありません。

なら何を基準にツールを選ぶか!
こちらにまとめてみました。

まとめ

  • 理路整然とした会議は精度が高い

  • 逆に考えながら話す会議は精度が落ちる

  • 発音を間違うと精度が落ちるが、単語登録でカバーできる

  • はっきり、滑舌よく話すと精度が高くなる

  • 初期の頃の精度はあまり意味が無い(日進月歩なので)

  • 精度にこだわりすぎず、選ぶ基準は「困った」が解決が出来るかどうかをオススメします


この記事が参加している募集

この記事が気に入ったらサポートをしてみませんか?