Whisperのモデル、どれを使うか

動画・音声ファイルから音声認識/文字起こしをしたいケースが日常的にあるので、Whisperを実行できる環境をMacローカルに常備したい。

Whisper実行環境自体はpip installで済んでしまうのだが、どのモデルを常備しておくかで迷ったので、メモを書いておく。

Whisperのモデルの種類。smallはbaseよりも大きい

手元の環境はMacBook Pro(M1 Max 64GB, macOS Ventura)。書き起こしたい動画・音声ファイルは1時間以上あることもあるので、パフォーマンスもそれなりに重視する。

(以下、めちゃくちゃ雑な比較をしてるだけです。ちゃんとした評価などはしてません)

各モデルファイルのサイズ

モデルサイズは以下の通り:

ここから先は

793字
文章やサンプルコードは多少荒削りかもしれませんが、ブログや書籍にはまだ書いていないことを日々大量に載せています。たったの400円で、すぐに購読解除してもその月は過去記事もさかのぼって読めるので、少しでも気になる内容がある方にはオトクかと思います。

技術的なメモやサンプルコード、思いついたアイデア、考えたこと、お金の話等々、頭をよぎった諸々を気軽に垂れ流しています。

最後まで読んでいただきありがとうございます!もし参考になる部分があれば、スキを押していただけると励みになります。 Twitterもフォローしていただけたら嬉しいです。 https://twitter.com/shu223/