Podcastの音声をWhisperで文字起こしして、ChatGPTで要約してみた

2023年2月12日 14:41

【追記】
この記事で、コードやYoutubeの動画で説明しています。

【追記終わり】

Podcastの音声をWhisperで文字起こしし、ChatGPTでテーマごとに要約してもらい、Podcastで話したことの概要を作ってみたという、記事タイトルそのままの内容です。
WhisperもChatGPTもとても簡単に使えるので、誰でもAIを使って音声の書き起こしと、その要約が簡単にできるようになったんだなーとすごいです。

Whisperで文字起こし

OpenAIのWhisperを使って文字起こしをします。
Colabotatoryで次のコードを実行するだけ、とても簡単です。

!pip install git+https://github.com/openai/whisper.git
import whisper
model = whisper.load_model("large")
result = model.transcribe("regonn&curry203.mp3", verbose=True, language='ja')

書き起こし結果は次のようになりました。
句読点も入っていますが、後の方は句読点が入らなかったので、もしかしたら長さの制限などがあるのかも？

「large」という一番大きいモデルですが、ColaboratoryのT4のGPUを使う環境で、31分の音声ファイルが7分で書き起こすことができました。

ちなみにColaboratoryのCPU環境だと、2時間40分ぐらいで書き起こすことができました。
急いでいなければ、CPUの環境でも問題はなさそうです。

ChatGPTで要約

書き起こしを、ChatGPTで要約していきます。文章が長いとダメなようなので、テーマごとに、要約していく。

無料版だと全然進まなかったのがPlusだと進んだ。
Plusでも早かったり早くなかったりする。 pic.twitter.com/c3bJ3r4vtM
— カレーちゃん🍮 (@currypurin) February 11, 2023

無料版だと、なぜか進まなかったけれど、ChatGPTPlusだと問題なく進みました。
プロンプトは、今のところ次のツイートのようにしています。

ChatGPTの要約がうまくいかないのは、ChatGPTPlusで解決した。

入力は今のところこれにすると良さそうな感じ。

次の文章を日本語の140文字で要約してください。「私は」のような、主語は省略してください。
— カレーちゃん🍮 (@currypurin) February 11, 2023

書き起こした結果はこのnoteにまとめています。

全ての書き起こしや、要約はこのnotionのページにあります。

Podcastの概要

31分の音声を文字に書き起こした文字数は9700字でした。31分も話したのに、それぐらいなんだなーと。
これを今回の方式で、ChatGPTで要約すると、1666文字になります。
もう少し短くするとかやり方はありそうなので、もう少しうまい要約を目指してみたいと思います。

この内容は明日収録PodCast(Youtube Live）で話します。

コメントお待ちしています。匿名の質問はマシュマロから→https://marshmallow-qa.com/currypurin