Speech-to-Text で1時間半の取材テープを文字起こし。ズバリ料金は？

2024年4月5日 10:14

昔は取材のテープ起こしは、音源を聞きながらタイピングして一からやっていました。私はこれが遅いのなんのって。1時間半のテープ起こしに誇張抜きで8時間ぐらいかかっていました。

いまはAIでサクサクやってくれるので良い時代です。今日はグーグルの「Speech-to-Text」でやってみました。ちょっと操作に癖があるのですが、プログラミングコードを書かなくて良いので楽です。音源をアップするだけ。ただしAPIを利用するのでその利用料金がかかってしまいます。

1時間半のmp3ファイルを、V2という良い方のモデルを使って文字起こししてもらいました。ズバリ料金は…

236円！超ローコストですね。コーヒー代ぐらいな感じでしょうか。
文字起こしについては色々と試行錯誤してきたので、OpenAIの「Whisper」を使ったやり方なんかも追って紹介できればと思います。

この記事が気に入ったらサポートをしてみませんか？