OpenAIの「Whisper」を使って文系学生が爆速でインタビューの文字起こしをする方法

2023年4月26日 20:56

「インタビューデータ数時間あるけどテキスト分析したい…」
「ミーティングの議事録つくりたいけど時間ない…」
そんな文系学生の悩みを解決するべく、Open AI 「Whisper」をPythonのインストール＆実行環境を整えることなく活用する方法をまとめました。

（注1）2023/4/26に自分のメモ的に作成しているため、誤りや言葉足らずなところあります。適宜修正していきます。
（注2）手順に合わせてPC作業画面を確認したり、細かい補足事項を知りたい場合は、各手順の最後に参照しているサイトが詳しいです。

【手順1】Chat GPTでIDを作成する

1-1．https://chat.openai.com/auth/loginにアクセス
1-2．[Sign up]をクリック
1-3．（Googleアカウントを持っているなら）「Continue with Google」をクリックし、Gmailアドレスとパスワードでログイン
※Googleアカウントを持っていない時はメールアドレス／パスワードを入れる

参照：NPO法人IT勉強宴会「chat GPTで遊ぶ」（最終アクセス日：2023/04/26）
https://gpt.benkyoenkai.org/

【手順2】Chat GPTへのユーザー登録

2-1.【手順１】を終えたら出てくる画面に名前を入力（Googleアカウントでログインしていると事前に入力されている）※本名でなくてもOK
2-2.携帯番号を入力
2-3.SMSに届く認証コードを入力

参照：NPO法人IT勉強宴会「chat GPTで遊ぶ」（最終アクセス日：2023/04/26）
https://gpt.benkyoenkai.org/

【手順3】Chat GPTのAPI取得

3-1.Chat GPTにログインしたら↓のような画面が出てくる。
右上のアカウントのアイコンをクリック
3-2.「View API keys」をクリック

3-3. API keysの画面で「＋Create new secret key」をクリック。
メモ帳とかにAPI keyをコピペしておく
終わったら「Setting」をクリックして「Organization settiongs」のページへ。

3-4.Organization IDを同じくメモ帳にコピペしておく
「Setting」をクリックして「Organization settings」のページへ。

参照：DXCEL WAVE「【Python】Chat GPTを起動しチャットボット作成｜Open APIの利用申請手順も解説」（最終アクセス日:2023/04/26）
https://di-acc2.com/programming/python/24841/

心のこえ
（ここからPythonの実行環境を整えるのがめんどくさいな…Google Colaboratoryにしよ）
（OpenAIのサービスのうち「Whisper」を使えればいいからチャットボットの賢い使い方とかはとりあえず飛ばす）

【手順4】Google Colaboratory上でWhisperの実行環境を構築

4-1.Googel Colaboratoryにアクセス（Googleアカウントがあれば誰でも使える）

4-2.すぐに表示されるウィンドウの右下の「ノートブックを新規作成」をクリック
4-3.画面の右上の「接続」の箇所が「RAMディスク」の表示に変わるのを待つ。以下、基本的に使用する部分を赤丸・赤四角で示します。

4-4.表示が「RAMディスク」になったらクリックし、プルダウンで現れるウィンドウの下部にある「ランタイムのタイプを変更」をクリック
4-5.「ハードウェアアクセラレータ」で「GPU」を選択して保存する
4-6.WhisperをGoogle Colaboratoryにインストールするために下記のコマンドをコピペ
!pip install git+https://github.com/openai/whisper.git
4-7.コマンドを入力し終えたらコードの左側にある実行ボタンをクリック（灰色の矢印）
4-8.「＋コード」をクリックして別のコードを作成
4-9. import whisperを入力して実行

心のこえ
（ここまでは画面上で何も起こらないけどそれでOK！）
（料理の下処理終わったよ、な段階）
（コードの左側に緑の☑と秒数が表示されたらエラーが出ずに実行できている証拠）
（赤くなってたらエラーが出て実行できていないけど、どこで間違ってるか暗に教えてくれる）

参照：AI smiley「Open AIの文字起こしAI「Whisper」の使い方」（最終アクセス日：2023/04/26）
https://aismiley.co.jp/ai_news/what-is-whisper/

【手順5】Google Driveに分析したい音声ファイルをアップロードしておく

※もしくは、ローカルに保存している音声ファールをGoogle Colaboratoryの左側の「ファイル」のウィンドウのところにドロップしておく。

【手順6】音声ファイルを読み込む

6-1. Google Colaboratoryのコード入力画面にもどる
6-2.「＋コード」で新しいコードをつくる
6-3.下記のコマンドをコピペ

model = whisper.load_model(“base”)
result = model.transcribe(“ファイル名”)
print(result[“text”])

（6-4.””(ダブルクォーテーション)が半角入力になっているか確認）

6-5.ファイルのウィンドウに文字起こしをしたい音声ファイルの名前が確認できる状態にする
6-6.ファイルの名前の上にカーソルをあわせ、右クリックすると「パスをコピー」が出てくる。コピー。
6-7.先ほど入力したコマンドのうち「ファイル名」のところを削除して、コピーしたパスを張り付ける。※（“”）は消さないで
6-8.コードの左側の灰色の矢印の「実行ボタン」をクリック
6-9.「実行ボタン」がくるくるして文字起こしを始めてくれるので、待つ
（待ち時間目安）1時間の音声で数分、2~3時間の音声だと10ぐらいかかるかも。
別の作業しながら待つ
6-10.文字起こしが終わるとくるくるが無くなる
6-11.テキストは一行で出力されているため、とりあえずその行をクリック
6-12.ショートカットキー「Ctrl＋A」で全選択して「Ctrl＋C」でコピー
6-13.Wordで新規ファイルを開いてペースト
6-14.最初の数行は文字起こし部分ではないため削除
6-15.Whisperの精度が高いといえど、誤字はある。音声を聞きなおしながら誤字や冗長的な部分を修正
6-15.完成！！

参照：AI smiley「Open AIの文字起こしAI「Whisper」の使い方」（最終アクセス日：2023/04/26）