見出し画像

【音声認識AI】Clova Note vs Gladiaの文字起こし比較実験結果


はじめに

日本が誇る音声認識サービス、LINEが運営する:Clova Note

世界的に有名な音声文字起こしサービス: Gladia

私がセミナーで2時間超喋った内容の音声ファイルをこれらのサービスに文字起こししてもらい、 結果を比較しました。
ちなみにどちらのサービスも、月10時間までは無料で文字起こしできますので、非常にお得です。
合計20時間文字起こしできるので、大概の用は足ります。

どちらもClovaはLINEアカウント、GladiaはGmailがあれば、使い始めることができます。
両サービスとも、ユーザーインターフェースはわかりやすく、Gladiaも基本は英語ですが、音声ファイルをアップロードしてボタンを押すだけなので、初めての方も迷うことはないでしょう。

ただ、どちらも アップロードできる音声ファイルの長さは2時間までなので、今回は音声ファイルの長さを削ってからアップロードする必要がありました。

文字起こし結果:改行や句読点も含め、そのまま

以下、目視で比較してみてください。
どっちもどっちな感じです。Clovaは段落分けされていて、句読点があり、読みやすい感じですね。

Clovaの文字起こしの冒頭

共有をこちらの方に移させてもらいまして、これですね。切り替わり次第 始めます。

いかがでしょうか。切り替わりました。はい、大丈夫です。はい はい。それでは始めます。チャットgptプロンプトエンジニアリング入門講座1日目ほ講師を務めさせていただく本郷です。よろしくお願いします。

はい。この後、自己紹介させていただきたいんですけども、タイムスケジュールをまず最初にお話しします。今週、来週と2日間にわたりまして各2時間 ありますが、今日はですね、行ってみれば基礎片です。
で、来週の応用編とお考えください。はい。で、今日のやることは、まずは講義の進め方のオリエンテーションを行って、講義を1時間弱、

1時間ぐらいですかね、このプロンプトインジアリングの基礎的な知識部分を、時々、皆さんみんなでチャットgptに入力しながら 進めていきます。で、少しトイレ休憩とって、後半は半蔵演習ってことで、 演習を18個も用意してます。んで、多分今週だけで終わらないので、

重要優先順位をつけてます。んで、7、8個やってですね、来週も 来週も盛りだくさんなんすけど、の、来週も残った時間でやるということで、できるだけ、みんなで半蔵演習やって、わかんないとこ聞いていただいたりして、 知識をと。あとは実践を深めていっていきたいっていただければなと思っております。

Gladiaの文字起こしの冒頭

共有をこちらの方に移させてもらいまして これですね 切り替わり次第始めます いかがでしょうか 切り替わりました はい それでは始めます チャットGPTプロンプティングインジニアリング入門講座1日目 本 講師を務めさせていただく本郷です よろしくお願いします この後自己紹介させていただきたいんですけども タイムスケジュールをまず最初にお話しします 今週来週と2日間にわたりまして 各2時間ありますが 今日はですね 言ってみれば基礎編です 来週は応用編とお考えください 今日のやることは まずは講義の進め方のオリエンテーションを行って 講義を1時間弱 1時間ぐらいですかね このプロポートエンジニアリングの基礎的な知識部分を 時々皆さんみんなでチャットGPTに入力しながら進めていきます 少しトイレ休憩とって後半はハンズオン演習ということで 演習を18個も用意してますので 多分今週だけで終わらないので 優先順位をつけてますんで 7、8個やってですね 来週も盛りだくさんなんですけど 来週も残った時間でやるということで できるだけみんなでハンズオン演習をやって 分かんないところを聞いていただいたりして 知識と実践を深めていっていただければなと思っております

Google Gemini Pro 1.5による比較評価

(プロンプト)同じ音声ファイルを文字起こししたものです。どちらの精度が高いですか? まずは評価基準を明示し、その上で 定量的に評価を行ってください。

(Geminiのレスポンス)
Clova NoteとGladia Transcriptionの音声文字起こしの精度を比較し、評価基準を設けて定量的に評価します。

評価基準

  • 正確性: 正しい単語が認識されているか

  • 完全性: すべての単語が認識されているか (脱字がないか)

  • 流暢さ: 自然な文章として読めるか (句読点、改行などを含む)

定量的評価

各項目を5点満点で評価します。

項目Clova NoteGladia Transcription正確性44.5完全性3.54流暢さ34

合計点

  • Clova Note: 10.5点

  • Gladia Transcription: 12.5点

総評

Gladia Transcriptionの方がClova Noteよりわずかに精度が高いという結果になりました。

根拠

  • 正確性: Gladia Transcriptionの方が固有名詞や専門用語の認識精度が高い傾向が見られました。Clova Noteでは、一部の固有名詞が誤認識されている箇所がありました。

  • 完全性: Gladia Transcriptionの方が脱字が少ない印象です。Clova Noteでは、特に早口で話されている部分で脱字が見られました。

  • 流暢さ: Gladia Transcriptionの方が句読点や改行が適切に挿入されており、自然な文章として読みやすいです。Clova Noteでは、句読点や改行が不足している箇所があり、読みにくい部分がありました。

結論

今回の音声ファイルでは、Gladia Transcriptionの方がClova Noteよりも高い精度で文字起こしを行えていると判断できます。ただし、音声ファイルの内容や話し方によって精度が変動する可能性があるため、あくまで参考として捉えてください。

補足

今回の評価は、あくまで1つの音声ファイルに基づいたものであり、一般的な傾向を示すものではありません。より正確な評価を行うためには、複数の音声ファイルを用いた検証が必要です。

また、文字起こしソフトの精度は日々向上しているため、今後Clova Noteの精度がGladia Transcriptionを上回る可能性も十分にあります。

この評価が、今後の音声文字起こしソフト選びの参考になれば幸いです。

ChatGPT-4oによる比較評価

(プロンプト)同じ音声ファイルを文字起こししたものです。どちらの精度が高いですか? まずは評価基準を明示し、その上で 定量的に評価を行ってください。

(ChatGPTのレスポンス)
音声ファイルの文字起こしにおける精度の比較を行うため、以下の評価基準を設定します。

評価基準:

  1. 正確性: 実際の発話に対する文字起こしの忠実度(語彙、発音、文法構造が正確か)。

  2. 一貫性: 文脈に沿った一貫した内容か、話の流れが理解できるか。

  3. 誤変換の頻度: 音声の誤認識による単語やフレーズの誤変換がどれだけ少ないか。

  4. スムーズさ: テキストが自然に読みやすく、音声の流れを反映しているか。

  5. 抜け漏れの少なさ: 音声の一部が無視されていないか。

これらの基準を基に、提供された2つのファイルを定量的に評価します。

方法:

  1. 誤字・脱字の数: 各ファイルに含まれる誤字・脱字の数を数えます。

  2. フレーズ一致率: 実際の発話と一致しているフレーズの割合を計算します。

  3. 文脈一致率: 内容が一貫しているかを調べ、フレーズや文の適切さを確認します。

これに基づいて、2つのファイルを比較して評価を行います。少しお待ちください。

分析が終了しました

import pandas as pd

# ファイルの読み込み
file1_path = '/mnt/data/Gladia.txt'
file2_path = '/mnt/data/Clova.txt'

# ファイルの内容を読み込む
with open(file1_path, 'r', encoding='utf-8') as file1:
    content1 = file1.read()

with open(file2_path, 'r', encoding='utf-8') as file2:
    content2 = file2.read()

# 文字数と単語数のカウント
file1_word_count = len(content1.split())
file2_word_count = len(content2.split())

# 分析のために各ファイルの最初の2000文字を表示
file1_excerpt = content1[:2000]
file2_excerpt = content2[:2000]

file1_word_count, file2_word_count, file1_excerpt, file2_excerpt

結果

(1666,
 897,
 'Speaker 0 | 00:00.260\n共有をこちらの方に移させてもらいまして これですね 切り替わり次第始めます いかがでしょうか 切り替わりました はい それでは始めます チャットGPTプロンプティングインジニアリング入門講座1日目 本 講師を務めさせていただく本郷です よろしくお願いします この後自己紹介させていただきたいんですけども タイムスケジュールをまず最初にお話しします 今週来週と2日間にわたりまして 各2時間ありますが 今日はですね 言ってみれば基礎編です 来週は応用編とお考えください 今日のやることは まずは講義の進め方のオリエンテーションを行って 講義を1時間弱 1時間ぐらいですかね このプロポートエンジニアリングの基礎的な知識部分を 時々皆さんみんなでチャットGPTに入力しながら進めていきます 少しトイレ休憩とって後半はハンズオン演習ということで 演習を18個も用意してますので 多分今週だけで終わらないので 優先順位をつけてますんで 7、8個やってですね 来週も盛りだくさんなんですけど 来週も残った時間でやるということで できるだけみんなでハンズオン演習をやって 分かんないところを聞いていただいたりして 知識と実践を深めていっていただければなと思っております 今日の目次なんですけども 5つありまして えー 1、2がちょっと知識的なところ、概論的なところで、皆さんチャットGPTの有料版を契約されていて、かなりご存知だと思うので、ここはもう本当に資料も詳しく書いているので、さらっといきます。 読んでいただくことを前提に、後で読んでいただくことを前提にですね。 重要なのが、この設計3番目からですね。プロンプトの基本的な概論、設計の概論的なところと、 一番重要なのは4番目です プロンプトの要素です ここをしっかり時間をかけて ご説明したいと思っています ここが今日一番重要なところであり プロンプトエンジニアリングの 一番重要なところです 5番目は 要素の中の出力内容と出力形式 どんな形式で ChatGPTに出してほしいかというところも きっちり指定すればするほど いい結果が出るので そこを切り取って ご説明したいと思います。これは1時間目で、2時間目は演習ということになっています。 自己紹介なんですけれども、GPT図のアプリの制作講座にも参加いただいた方には重複になってしまうんですけれども、簡単に自己紹介させてください。 GPT図という、チャットGPTをカスタムして作るアプリケーションがありまして、それに関する書籍を あの出版しましたちょうど今日が発売日で クラウド部門とネットワーク部門で1 amazon 暫定1位になっているということ でまあにあのユーザーのに座ってみんな 皆さんこう ai アプリをご自分で 作りたいニーズ高いんだなと実感してい ますであとはあのノートのこのブログの ノートってブログのところで日々情報を 発信しているので見ていたあの お時間あるときに見ていただければなと 思いますいろいろ ChatGPTに限らず いろんな生成AIの情報を発信をしています もともとは10年ぐらい前から AIの開発の仕事が中心になりまして それまでは金融機関出身で 金融のシステムを作ったり販売してたんですけど 途中からAIが盛り上がってきて 自分も興味があって AIがいつの間にか中心になっちゃったという状況で 今年に入ってからは 福祉業界 具体的に言うと障害者施設や 放課後デイサービスという発達障害を抱えていらっしゃるお子さんの施設なんかに AIを入れてですね そこでDX 業務効率化を図ろうというところで こういうChatGPTを活用してシステムを作っています はい でですね 以上が自己紹介で、今日と今回と来週の進め方のご説明をしたいと思います。 今日は皆さんChatGPTもログインして準備されていると思うんですけども 打ち込む回数多いのでまずはChatGPT 4.0のミニからやっていきたいと思います ここですね こういう画面にいつもなっているじゃないですか ここの このまま行きましょうか ここのここでこのミニ こっちの方で行きたいと思います また後でご案内しますけども そうすると回数 今日 バンバンやっても途中で画像とかファイル出力できなくなったとか足りると思うので 3時間の間に80回までできるので大丈夫だと思うので 必要な時にモデル4をオンに切り替えてくださいと言いますので それで切り替えてやっていきましょう 演習の時ですね スライド中にテスト用プロンプトを所々入れているんですけど それをここに コピペしてやっていきましょう これもご案内しますので そんな感じで ただ聞いていただくだけじゃなくて 途中途中手を',
 '\ufeffPE講座D1_0822\n2024.08.23 金 午前 10:29 ・ 117分 3秒\nYoshiyuki Hongoh\n\n共有をこちらの方に移させてもらいまして、これですね。切り替わり次第 始めます。\n\nいかがでしょうか。切り替わりました。はい、大丈夫です。はい はい。それでは始めます。チャットgptプロンプトエンジニアリング入門講座1日目ほ講師を務めさせていただく本郷です。よろしくお願いします。\n\nはい。この後、自己紹介させていただきたいんですけども、タイムスケジュールをまず最初にお話しします。今週、来週と2日間にわたりまして各2時間 ありますが、今日はですね、行ってみれば基礎片です。 \nで、来週の応用編とお考えください。はい。で、今日のやることは、まずは講義の進め方のオリエンテーションを行って、講義を1時間弱、\n\n1時間ぐらいですかね、このプロンプトインジアリングの基礎的な知識部分を、時々、皆さんみんなでチャットgptに入力しながら 進めていきます。で、少しトイレ休憩とって、後半は半蔵演習ってことで、 演習を18個も用意してます。んで、多分今週だけで終わらないので、\n\n重要優先順位をつけてます。んで、7、8個やってですね、来週も 来週も盛りだくさんなんすけど、の、来週も残った時間でやるということで、できるだけ、みんなで半蔵演習やって、わかんないとこ聞いていただいたりして、 知識をと。あとは実践を深めていっていきたいっていただければなと思っております。\n\nで、今日の目次なんですけども、5つありまして、\n\n1、2がちょっと知識的なところ、概論的なところで、皆さんchatcptの有料版 を契約されてて、かなりご存知だと思うので、ここはもう本当に資料も詳しく書いてるので、さらっといきます。はい。 \n読んでいただくことを前提に、後で読んでいただくことを前提にですね。で、重要なのが、この設計3番目からですね。プロンプトの基本的な概論、設計の概論的なところ\n\nと、1番重要なのは4番目です。プロンプトの要素です。ここをしっかり時間をかけてご説明したいと思ってます。ここが今日1番重要なところであり、 プロンプトエンジニアリングの1番重要なと重要なところです。で、5番目は、その要素の中の出力内容と出力形式。 \nどんな形式でchatgptに出してほしいかっていうところもきっちり指定すればするほどいい結果が出るので、そこを切り取って\n\nご説明したいと思います。これは1時間目で、2時間目は演習ということになっています。はい。 \n自己紹介なんですけども、gptsのアプリの制作講座 も聞いて参加いただいた方には重複になってしまうんですけども、簡単に自己紹介させてください。\n\ngptsというチャットgptをカスタマイズして作るアプリケーションがありまして、それに関する書籍を出版しました。ちょうど今日が発売日で、 クラウド部門とネットワーク部門で1位、amazon暫定1位になってるということで、にユーザーのニーズは皆さんこうaiアプリをご自分で作りたいニーズは高いんだなと実感しています。 \nで、あとはノートのこのブログのノートっていうブログのところで日々情報発信してるので、\n\n見ていたお時間ある時に見ていただければなと思います。色々chatgptに限らず、色んな生成iの情報発信をしています。 \nで、元々は10年ぐらい前からaiの開発の仕事が中心になりまして、それまでは金融機関出身で、金融のシステムを 作ったり、販売してたりしてるんですけど、してたんですけど、途中からaiが盛り上がってきて、自分も興味があって、aiがいつの間にか中止になっちゃったという状況で、今年に入ってからは福祉業界、\n\n具体的に言うと障害者施設や放課後デイサービスっていう 発達障害を抱えてらっしゃるお子さんの施設なんかのにaiを入れてですね、そこでdx、 業務効率化図ろうというところで、こういうチャットgptを活用してシステムを作ってます。\n\nはい。\n\nでですね、以上が自己紹介で、 日都今回と来週の進め方のご説明をしたいと思います。 \nで、今日はですね、みなさんチャットgptもログインして準備されてると思うんですけども、\n\n打ち込む回数多いので、まずはchatgpt4oのminiからやっていきたいと思います。\n\nここですね、こういう画面にいつもなってるじゃないですか。で、こういこ、このまま、この前行きましょうか。ここのここで、 この見に、こっちの方で行きたいと思います。また後でご案内しますけども、そうすると、回数、今日バンバンやってもですね、途中で 出力でき、画像とかファイル出力できなかくなったとかないと思うのな、足りると思うので、\n\n3時間の間に80回までできるので、大丈夫だと思う')

以下は、2つの音声ファイルの文字起こしに対する定量的な評価です。

1. 文字数と単語数

  • File 1 (Gladia): 約1,666単語

  • File 2 (Clova): 約897単語

2. 精度の評価

  • File 1 (Gladia):

    • 様々な詳細な発話内容が含まれ、かなり忠実に音声を反映しています。

    • 構文が比較的整っており、情報量が多い。

  • File 2 (Clova):

    • 内容が簡潔にまとめられているものの、発話の一部が省略されている可能性があります。

    • 語彙や文の構成が簡素で、一部の文脈が不明瞭な箇所がある。

3. 一貫性と読みやすさ

  • File 1: より長く、詳細な説明が多く含まれており、話の流れに従って情報が一貫している。

  • File 2: より短く要約されているが、文脈の曖昧な部分があり、一部の内容は断片的に感じられる。

4. 誤変換と抜け漏れ

  • File 1: 発話内容に基づいて正確な表現が多く、誤変換や大きな抜け漏れが少ない。

  • File 2: 一部の細かい発話や情報が省かれており、詳細な部分が不足している箇所がある。

結論

定量的な分析の結果、File 1 (Gladia) がより正確かつ詳細な文字起こしを提供していることが確認されました。一方、File 2 (Clova) は簡潔で読みやすいですが、詳細が欠けているため、精度としてはやや劣る結果となりました。

この評価を基に、File 1が精度の高い文字起こしとして評価されます。

まとめ:優劣の結論と実際的な使い方

Google Gemini, ChatGPT-4oどちらの評価も結論は同じで、Gladiaの方が優秀ということになりました。
私が最も気になったのは、拾った単語数の違いです。ちょっと看過できないほどの相違です。

File 1 (Gladia): 約1,666単語
File 2 (Clova): 約897単語

これまでは、Clovaをまず使っていましたが、今後はGladiaを第1優先順位にしていきます。

Gladiaは、OpenAIのWhisperという音声認識モデルをファインチューニングし、サービスにしたものです。

今回の比較実験のサンプルは1個、すなわち私の声を文字起こしした結果だけなので、一般性はない実験結果ですので、ぜひ、ご自分の音声データで検証してみて最適な方を選択してください。

実際的な使い方としては、まずGladiaで10時間使う、それが無くなったらClovaで10時間使う、というやり方で毎月無料の範囲でやり過ごす感じでしょうか。

【重版決定】ChatGPTをカスタマイズして作るAIアプリ

ChatGPTのカスタマイズアプリGPTsを自分で作って世界に公開したい方はこちら!プログラミングは不要です。

この記事が気に入ったらサポートをしてみませんか?