![見出し画像](https://assets.st-note.com/production/uploads/images/121223483/rectangle_large_type_2_849e2198b1cc563bda1a6754b58e7133.png?width=800)
OpenAIの音声テキスト変換whisperの新モデル"large-v3"を試す
先日OpenAIから音声テキスト変換whisperの新モデル"large-v3"が公開されました。近くAPIも公開されるとのことですが、とりいそぎ google colab の無料GPU(T4)で軽く試してみました。
どの言語もlarge-v2にくらべて全体的にエラー率が下がって性能が向上しているようです。
![](https://assets.st-note.com/img/1699506190904-SIdRvA0Fgs.png?width=800)
ともかく試してみます。
google colabの無料GPU(T4)で試してみます。
ライブラリーのインストール
!pip install -U openai-whisper
サンプル音声ファイルの準備
NHKラジオニュースの音声をサンプルとして使ってみました。
# youtubeダウンロードツールのインストール
!pip install yt-dlp
url = "https://www.youtube.com/watch?v=fTat6gm7EjA" #11月09日 午前7時のNHKニュース
!yt-dlp -x --audio-format mp3 $url -o input.mp3
実行!
import whisper
model_size = "large-v3"
model = whisper.load_model(model_size)
result = model.transcribe("input.mp3", language="ja")
print(result["text"])
音声ファイルをモデルに渡すだけでOK!
![](https://assets.st-note.com/img/1699504874987-jLlYZVWIkr.png)
![](https://assets.st-note.com/img/1699507034478-l41fsQ5lx3.png?width=800)
segments = result["segments"]
for segment in segments:
print("[%.2fs -> %.2fs] %s" % (segment['start'], segment['end'], segment['text']))
[0.00s -> 15.82s] 11月9日木曜日7時になりました
[15.82s -> 19.28s] おはようございます野村雅彦です
[19.28s -> 20.84s] 星川幸です
[20.84s -> 22.02s] 関根太郎です
[22.02s -> 24.50s] NHK今朝のニュース
[24.50s -> 27.00s] まず政治の動きからお伝えします
[27.00s -> 34.58s] 岸田総理大臣は年内の衆議院解散を見送る意向を固めました
[34.58s -> 39.86s] 当面は物価高を受けた経済対策などに専念し
[39.86s -> 44.26s] 年明け以降の内閣支持率なども見極めながら
[44.26s -> 46.48s] 慎重にタイミングを探る考えです
(中略)
[231.34s -> 232.34s] 日本の首脳会談は
[232.34s -> 233.34s] 日本の首脳会談は
(中略:同じ文字列を複数回出力してしまっている)
[476.32s -> 480.46s] 日本の首脳会談は
[480.46s -> 484.32s] 日本に落とされるiß
[485.92s -> 490.92s] 日本の首脳会談は
[491.52s -> 493.48s] 日本に落とす,
[493.48s -> 496.06s] ドックって,
[496.06s -> 498.16s] ドスッtt
[498.16s -> 501.38s] どら
[501.38s -> 502.48s] ファン f Mexican match
(中略)
[1184.92s -> 1186.92s] 土曜日・日曜日は北海道、
[1187.02s -> 1188.02s] 平地でも雪が降り、
[1188.12s -> 1190.12s] 積もるところも出てきそうです。
[1190.22s -> 1191.22s] 雪への備え、
[1191.32s -> 1192.32s] そして、その他の地域も、
[1192.42s -> 1194.32s] 寒さへの備えをお願いします。
[1194.42s -> 1196.42s] どうぞ今からお気をつけください。
[1196.52s -> 1198.42s] では、お近くの放送局から、
[1198.52s -> 1200.52s] ニュース・気象情報などを続けます。
一部、文字化けしてしまった部分もありますが、全体的にしっかり認識できており十分実用に耐えられそうです。google colabの無料GPUでさくっと使えるので、出先でも日常使いできそうです。
最後までお読みいただきありがとうございました。
この記事が気に入ったらサポートをしてみませんか?