OpenAIの音声テキスト変換whisperの新モデル"large-v3"を試す

はまち

2023年11月9日 14:49

先日OpenAIから音声テキスト変換whisperの新モデル"large-v3"が公開されました。近くAPIも公開されるとのことですが、とりいそぎ google colab の無料GPU(T4)で軽く試してみました。

どの言語もlarge-v2にくらべて全体的にエラー率が下がって性能が向上しているようです。

Common Voice 15 および Fleurs データセットで評価されたWER (単語誤り率) または CER (文字誤り率、イタリック体で記載 ) を使用した、言語ごとのlarge-v2とlarge-v3のパフォーマンス比較

ともかく試してみます。

google colabの無料GPU(T4)で試してみます。

ライブラリーのインストール

!pip install -U openai-whisper

サンプル音声ファイルの準備

NHKラジオニュースの音声をサンプルとして使ってみました。

# youtubeダウンロードツールのインストール
!pip install yt-dlp

url = "https://www.youtube.com/watch?v=fTat6gm7EjA" #11月09日 午前７時のNHKニュース
!yt-dlp -x --audio-format mp3 $url -o input.mp3

実行！

import whisper

model_size = "large-v3"

model = whisper.load_model(model_size)
result = model.transcribe("input.mp3", language="ja")
print(result["text"])

音声ファイルをモデルに渡すだけでOK！

Google Colabの無料GPU(T4)を使用。GPUのRAM消費は10GBほど。

segments = result["segments"]

for segment in segments:
    print("[%.2fs -> %.2fs] %s" % (segment['start'], segment['end'], segment['text']))

[0.00s -> 15.82s] 11月9日木曜日7時になりました
[15.82s -> 19.28s] おはようございます野村雅彦です
[19.28s -> 20.84s] 星川幸です
[20.84s -> 22.02s] 関根太郎です
[22.02s -> 24.50s] NHK今朝のニュース
[24.50s -> 27.00s] まず政治の動きからお伝えします
[27.00s -> 34.58s] 岸田総理大臣は年内の衆議院解散を見送る意向を固めました
[34.58s -> 39.86s] 当面は物価高を受けた経済対策などに専念し
[39.86s -> 44.26s] 年明け以降の内閣支持率なども見極めながら
[44.26s -> 46.48s] 慎重にタイミングを探る考えです
（中略）
[231.34s -> 232.34s] 日本の首脳会談は
[232.34s -> 233.34s] 日本の首脳会談は
（中略：同じ文字列を複数回出力してしまっている）
[476.32s -> 480.46s] 日本の首脳会談は
[480.46s -> 484.32s] 日本に落とされるiß
[485.92s -> 490.92s] 日本の首脳会談は
[491.52s -> 493.48s] 日本に落とす,
[493.48s -> 496.06s] ドックって,
[496.06s -> 498.16s] ドスッtt
[498.16s -> 501.38s] どら
[501.38s -> 502.48s] ファン f Mexican match
（中略）
[1184.92s -> 1186.92s] 土曜日・日曜日は北海道、
[1187.02s -> 1188.02s] 平地でも雪が降り、
[1188.12s -> 1190.12s] 積もるところも出てきそうです。
[1190.22s -> 1191.22s] 雪への備え、
[1191.32s -> 1192.32s] そして、その他の地域も、
[1192.42s -> 1194.32s] 寒さへの備えをお願いします。
[1194.42s -> 1196.42s] どうぞ今からお気をつけください。
[1196.52s -> 1198.42s] では、お近くの放送局から、
[1198.52s -> 1200.52s] ニュース・気象情報などを続けます。

一部、文字化けしてしまった部分もありますが、全体的にしっかり認識できており十分実用に耐えられそうです。google colabの無料GPUでさくっと使えるので、出先でも日常使いできそうです。

最後までお読みいただきありがとうございました。

この記事が気に入ったらサポートをしてみませんか？