ローカル(Windows)でFaster-whisperを使う方法!動画の字幕を簡単に作成
AIツールのhow to記事です。
今回は音声ファイルから字幕を簡単に作成できるFaster-whisperの使い方についてご紹介します。
■プロフィール
自サークル「AI愛create」でAIコンテンツの販売・生成をしています。
クラウドソーシングなどで個人や他サークル様からの生成依頼を多数受注。
実際に生成した画像や経験したお仕事から有益となる情報を発信しています。
詳細はこちら(🔞コンテンツが含まれます)
➡️lit.link
はじめに
当サークルが紹介している有料記事は、基本ネットで調べたり、検証したりすれば分かるものです。
ただ似たような情報が数万円で販売されていたり、自分で調べると手間や時間がかかったりするため、そういったコストや手間を省きたいという方の為に低価格で情報を提供しています。
また購入後にガッガリしないよう、最初に「どういったことができるか」をお見せしてから、具体的な情報を紹介するようにしています。
内容と価格に納得できる方は、ぜひ購入を検討頂けますと幸いです。
メンバーシップ(月額500円)に加入して頂くと、メンバー限定記事と300円以下の有料記事は読み放題です。
Faster-whisperとは?
Faster-whisperは、OpenAIが開発した音声認識モデル「whisper」をベースに、処理速度を向上させたものです。
githubで公開されている検証結果だと、13分の音声を処理したとき、Faster Whisperの方が3~4倍速く、メモリ使用量も半分くらいになっています。
・openai/whisper:処理時間4m30s・GPU11325MB・CPU9439MB
・faster-whisper fp16:処理時間54s:GPU4755MB・CPU3244MB
・faster-whisper int8:処理時間59s・GPU3091MB・CPU3117MB
https://github.com/SYSTRAN/faster-whisper
実際に使ってみると約50秒の音声が9秒ほどで処理できました。
こちらはFaster Whisperの説明をChatGPTに書いてもらい、voicevoxで読み上げてもらったものです。
この音声をFaster-whisperを使ってSRT形式で出力。それを取り込んで字幕をつけてみました。
※モデルはlarge v3を使用。テキストの修正はしていません。
特に大きな誤字・脱字もなく、タイミングや句読点の位置などもわりと正確だと思います。
Faster-Whisperを使えば、このように字幕を簡単に作成することが可能です。
・この記事でわかること
Faster-whisperの導入方法
Faster-whisperの使い方(ローカルにあるmp3・mp4などからテキストを出力)
通常のテキスト、またはSRT形式としてファイルを作成
実行コードのダウンロード
※動作環境
win11・RTX4060(16GB)で動かしています。
最低でもVRAM6GBあれば問題ないようです。
コードなどはコピペでできるように記載していますが、パスやモデルの指定など一部書き換える部分があります。
予めご了承ください。
ここから先は
よろしければサポートお願いします! いただいたサポートはクリエイターとしての活動費に使わせていただきます!