先日OpenAIから音声テキスト変換whisperの新モデル"large-v3"が公開されました。近くAPIも公開されるとのことですが、とりいそぎ google colab の無料GPU(T4)で軽く試してみました。
どの言語もlarge-v2にくらべて全体的にエラー率が下がって性能が向上しているようです。
ともかく試してみます。
google colabの無料GPU(T4)で試してみます。
ライブラリーのインストール
!pip install -U openai-whisper
サンプル音声ファイルの準備
NHKラジオニュースの音声をサンプルとして使ってみました。
!pip install yt-dlp
url = "https://www.youtube.com/watch?v=fTat6gm7EjA"
!yt-dlp -x --audio-format mp3 $url -o input.mp3
実行!
import whisper
model_size = "large-v3"
model = whisper.load_model(model_size)
result = model.transcribe("input.mp3", language="ja")
print(result["text"])
音声ファイルをモデルに渡すだけでOK!
segments = result["segments"]
for segment in segments:
print("[%.2fs -> %.2fs] %s" % (segment['start'], segment['end'], segment['text']))
一部、文字化けしてしまった部分もありますが、全体的にしっかり認識できており十分実用に耐えられそうです。google colabの無料GPUでさくっと使えるので、出先でも日常使いできそうです。
最後までお読みいただきありがとうございました。