Whisperのlarge-v2モデルを30倍早く処理できる、Gladiaをすぐ試せる方法

2023年2月18日 14:57

こんにちは、Choimirai Schoolのサンミンです。

【主なアップデート】
（2023.02.23）YouTube動画に特化したnoteへのリンクを追加

（2023.02.22）Google Colab NotebookにDeepL APIを追加
（2023.02.19）YouTube動画を追加

【書いた📝】

Whisperの文字起こしを30倍も早く処理させる方法をまとめたnote（👉https://t.co/LCCS1SQQEw）です。今すぐ試せる @GoogleColab Notebookへのリンクあり。1時間のYouTube動画がダウンロードを含め、3分あれば書き起こしができる📺。しかも、日本語にも対応していて無料👏！ https://t.co/MoxkuOR1zD pic.twitter.com/FXFt8FjucX
— sangmin.eth @ChoimiraiSchool (@gijigae) February 18, 2023

0 はじめに

2022年9月にリリースされ今も注目を集めている文字起こし用のモデルがOpenAIのWhisperです。今回のnoteではWhisperの中でも一番精度の高い、large-v2モデルを30倍早く処理させる方法を紹介させていただきます。

プログラミングができればアルゴリズムの進化とともに自分の生産性も爆発的に進化させることができる。去年9月に発表されたWhisper。largeモデルを使って1時間の音源を文字起こしするのにかかる所要時間は、

■2022.09：60分
■2023.01：30分
■2023.02：2分🤯

9月と比べると30倍も早くなってる🚀。 https://t.co/yDQqp1aIuD
— sangmin.eth @ChoimiraiSchool (@gijigae) February 17, 2023

【追記：2023.02.19】手順をまとめたYouTube動画です。

1 Whisperの進化

■2022年9月22日のリリース

OpenAIが英語の音声認識において「Human-Level」に近いモデル「Whisper」を発表。しかもオープンソース！様々なモデルがリリースされてる中で、

┳┻|
┻┳|
┳┻| _
┻┳| •.•) approaches human-level
┳┻|⊂ﾉ robustness & accuracy
┻┳|

"Human-Level"が用いられるのは初めてだと思う🤖 https://t.co/Jgh80ivD7I
— sangmin.eth @ChoimiraiSchool (@gijigae) September 22, 2022

■2022年12月7日：large-v2モデルを公開

精度面において英語では5%、他の言語では10%までの改善が報告されています。

Whisper large-v2 from @OpenAI, a state of the art model for speech recognition 🏆

Same data, more training => transcribe speech with 5-10% improved accuracy 🚀

Available now in 🤗 Transformershttps://t.co/lCLtsQBrbJ pic.twitter.com/sJCqHtzJQx
— Sanchit Gandhi (@sanchitgandhi99) December 7, 2022

■2023年1月26日：HuggingFaceが処理スピードで大幅な改善を発表

Super glad to announce that we finished refactoring 🤗's Whisper to match the API from @OpenAI ! You can now easily set the languages and task, while benefitting from 6x faster inference! 🚀🚀🚀 Feel free to ask questions! pic.twitter.com/nkoSXSHK0Q
— Arthur Zucker (@art_zucker) January 25, 2023

■2023年2月15日：GladiaがWhisper large-v2を改善したモデルを発表

Twitterでは1時間の音源を書き起こすのに10秒と書いてありますが、筆者が試したところ２分前後でした。音源のフォーマットによってはもっと早く処理できるとのことです。

MAJOR ANNOUNCEMENT

Our 🎙 Audio Transcription API 🎙 is now live! Built on @OpenAI Whisper-Large-v2, 10s to transcribe a 1h file, and more accurate than everything else on the market 🔥

I’m so so proud of the team, and of the tech we created!!

Why?
— 🎙Jean-Louis Queguiner (@JiliJeanlouis) February 15, 2023

2 Gladiaが実行できるNotebook

GladiaのAPIキーを取得するだけで文字起こしが試せるGoogle Colab Notebookを用意しましたので参考にしてください。Gladiaのモデルは英語だけでなく日本語を含め90言語に対応してます。

英語だけでなく日本語を含め90言語に対応

上記のリンクをクリックしますと次のような画面が表示されます。Copy to Driveボタンを押して、ご自分のGoogle Driveに保存してから使うようにしてください。

3 実装手順①：APIキーの取得

Gladiaのモデルを利用するためにはAPIキーの取得が必要です。アルファテスト期間中は無料で利用できますので下記のページからまずアカウントを作成してください。

アカウントを作成しますとAccount detailsのページでAPIキーが確認できます。

APIキーをコピーし、Notebookの「x-gladia-key」の値として貼り付けてください。

4 実装手順②：YouTube音源のDL

GladiaのAPIを使って文字起こしをする方法には３つあります。

①ローカルのファイルを指定
②YouTubeの音源を指定
③Web上の音源を指定

今回のnotebookでは下記YouTubeの音源を利用しています。

Notebookに書いてある指示に従いセルを順番通りに実行してください。

Notebookから下記のセルを実行しますと右側にあるFilesパネルにtest.mp3ファイルが生成されていることが確認できます。

48分の動画をダウンロードするのに50秒程度かかります

dl_yt("https://youtu.be/TNsv3VQEWy4")

5 実装手順③：文字起こしの実行

ファイルのアップロードが確認できましたら、notebookにある下記セルでファイル名を指定し、コードを実行します。1時間の音源を処理するのに約2分前後かかります。

6 実装手順④：結果の確認

文字起こしの結果は下記のセルを実行しますとテキストとして確認できます。

左側にあるFilesには「response.json」のファイルも生成されますのでより詳細データを確認したい方は参考にしてください。

7 番外編①：ローカルのファイルを指定

左側にあるメニューから「①Files」をクリックしますとFilesのパネルが表示されます。右クリックをしますと「②Upload」のメニューがあります。このメニューから該当音源をnotebookへアップロードできます。

8 番外編②：結果をChatGPTで確認

GladiaのAPIからは下記のようなJSON形式のファイルが返される仕組みとなっています。

ChatGPTは人には読みづらいデータでもテーブル形式でまとめることができます。表にまとめるときに使える指示文をシェアしますので参考にしてください。

Please format the following json data in markdown table. Only show the following three columns, time_begin, time_end, and Transcript.

9 まとめ

Whisperの進化を見ているとリアルタイムでの文字起こしで活躍できる日も遠くない気がします。今回紹介させていただいたNotebookからですとGladiaのAPIキーさえあればWhisperを簡単に試すことができます。1時間のYouTube動画を2分あれば書き起こすことができて、どなたでも無料（アルファテスト期間中）で利用できますのでこの機会にぜひ！

この記事が気に入ったらサポートをしてみませんか？