音声ファイルを簡単に文字起こし&要約！WhisperとChatGPTで実現する方法

2023年2月16日 23:20

音声ファイルの文字起こしとその要約を、Whisperという文字起こしのライブラリとChatGPTを用いて実現する方法を説明します。
すごく簡単に音声ファイルを要約できるのでとても便利です。

この内容はYoutube動画で説明しており、この記事はその書き起こしです。

1. Whisperでの文字起こしの方法

使うだけならとても簡単です。次のコードを実行するだけで、音声ファイルが文字になります。

!pip install git+https://github.com/openai/whisper.git
model = whisper.load_model("large")
import whisper
result = model.transcribe("<音声ファイルのpath>", verbose=True, language='ja')
text = result['text']

31分の音声ファイルを音声ファイルの場合の実行時間は次のとおりです。
・ColabratoryでGPU使用(T4) → 6分程度
・ColabratoryでCPU使用 → 2時間40分程度

2. Whisperを使うNotebook

podcastの書き起こしは、こちらで公開しています（Colaboratory）
Youtube動画の書き起こしNotebookは、こちらで公開しています（Colaboratory）
次のファイルは、youtubeの音声です。サンプルとして使用ください。

3. ChatGPTの使い方

Whisperで書き起こしたテキストを、テーマごとに次のプロンプトで要約します。

# 命令書: あなたはプロの編集者です。以下の制約条件と入力文をもとに、最高の要約を出力してください。

# 制約条件:
・文字数は140文字程度。
・重要なキーワードを取り残さない。
・文章を簡潔に。

# 入力文: <ここに入力文を記載>

# 出力分

このプロンプトは、あなたの仕事が劇的に変わる!? チャットAI使いこなし最前線を参考にしています。

4 実際に要約した例

私が毎週収録している、Podcastを文字起こしした例はこのnoteにまとめています。

また、このYoutube（Note)を書き起こして要約した例はこちらになっています。

この方法で、この動画を要約したところ、次のようになりました。

音声ファイルを簡単に文字起こしし、Chat GPTを使用して3~4行、約140文字に要約する方法を説明。ウィスパーを用いた文字起こしやチャットGPTの使い方を紹介し、CPUで約2時間40分、GPUで約6分で31分の音声ファイルを文字起こし可能。要約はテーマごとに分割して何回か行うと良い。また、参考としてPodcastの音声要約例があるので、URLを確認してみると良い。

コメントお待ちしています。匿名の質問はマシュマロから→https://marshmallow-qa.com/currypurin