Speech-to-Text で1時間半の取材テープを文字起こし。ズバリ料金は?
昔は取材のテープ起こしは、音源を聞きながらタイピングして一からやっていました。私はこれが遅いのなんのって。1時間半のテープ起こしに誇張抜きで8時間ぐらいかかっていました。
いまはAIでサクサクやってくれるので良い時代です。今日はグーグルの「Speech-to-Text」でやってみました。ちょっと操作に癖があるのですが、プログラミングコードを書かなくて良いので楽です。音源をアップするだけ。ただしAPIを利用するのでその利用料金がかかってしまいます。
1時間半のmp3ファイルを、V2という良い方のモデルを使って文字起こししてもらいました。ズバリ料金は…
236円!超ローコストですね。コーヒー代ぐらいな感じでしょうか。
文字起こしについては色々と試行錯誤してきたので、OpenAIの「Whisper」を使ったやり方なんかも追って紹介できればと思います。
この記事が気に入ったらサポートをしてみませんか?