見出し画像

ゆるプロ!番外編「Whisperで音声認識して文字起こしをしてもらう」

ゆるいプログラミング講座、略して「ゆるプロ!」
これは気軽に気楽に試せるゆるーいプログラミング学習コンテンツである。今回のお題は「Whisperで音声認識して文字起こしをしてもらう」


一言)

とあるブログの記事を読んで、文字起こしの精度がすごそうだったので試してみたらすごかった。何よりGPUを積んでいないCPUのパソコンでも実行できることに感動した。なお、低スペックPCと呼ばれるPCでもいけたので、かなり汎用性は高いライブラリだと思う

事前情報

読み上げる文章を元に、自分の声を録音してみよう。Windows11であれば標準アプリのサウンドレコーダが使える。今回はWindows11で試した。自分の声で録音するのはイントネーションや発音の問題はあるため、音声合成ソフトウェアで編集するよりは手軽に試せる

飯坂温泉は、奥羽(東北)地方有数の古湯であり、古くは「鯖湖の湯」と呼ばれました。

https://iizaka.com/info/

例)Whisperで音声認識して文字起こしをしてもらう

import whisper
model = whisper.load_model("medium")
result = model.transcribe("rec.m4a",fp16=False)
print(result["text"])

結果)

飯坂温泉は、大湯、東北、地方有数の固湯であり、 古くはサバコの湯と呼ばれました。

奥羽、固湯、鯖湖は文字は表現として難しいが、発音の部分はよく読み取れている。もちろん、自分の録音した声、発音、イントネーションが悪い部分はあるかもしれない。それでも精度は比較的、高いといえる。

参考)

OpenAI Whisper Github

参考にしたブログ

おわり!