見出し画像

生成AIで長時間の録音を精度高く文字起こし & 要約 (WhisperとGoogleColabを使ってみた)

ある会話から「プレゼンの正確な書き起こしや、動画のスピーチ内容を正確に要約したい」というニーズがありました。おそらく、毎回動画や音声を聴いて書き起こしを行い、その後に要約記事を作成するというフローが存在していたのかと思います。

そこで「ChatGPT」で有名なOpenAI社の提供しているAPIを活用して、長時間の映像や音声などの書き起こしや要約にチャレンジしてみました。

実は以前から、テキストの自動生成に興味があり、特に「Muddy Web PodCast」というポッドキャストを一緒に運営しているフロントエンジニアたちが「Whisper」というライブラリを使って、クオリティの高い自動文字起こしをしていたのが気になっていました。

「Whisper」は、音声をテキストに変換するためのシステムで、音声認識や文字起こしのタスクに使用されています。

GoogleColabでWhisperを動かしてみる

今回「Whisper」の動作環境を「Google Colab(Google Colaboratory)」にしました。「Google Colab」は、Googleが提供しているクラウドベースの環境で、Pythonのプログラミング環境を提供してくれます。Webブラウザ上でPythonコードを実行できるため、ローカルにPython環境をインストールする必要がなく、手軽にプログラミングやデータ分析を行うことができるので気に入っています。

また、OpenAIが提供するAPIもシンプルで使いやすくて感動しました。API認証からChatGPTやWhisperの呼び出しまで、直感的かつ簡単に機能を呼び出せることに感動しっぱなしでした。

Whisperでの音声文字起こしには制限があって、Google Colabでは、最大30秒までの音声の文字起こしができます。それ以上の音声はデフォルトでは出力されませんでした。

そこで、こちらの記事を参考にして、カスタマイズしながら、30秒以上の長時間の音声を文字起こしする事ができました。その際、精度を向上させるために、MultiLingual model sizeを「Large」※にして使用しています。要求されるVRAMのサイズが10GBと起動には時間がかかりますが、非常に高い精度で音声書き起こししてくれるので、満足しています。

Largeにする事で飛躍的に精度があがりました。逆にそれよりサイズを下げると業務効率を上げるという点では望んでいる精度にはなりませんでした。

もちろん、限定的な社内用語や、声を潜めてボソボソ声で話すなどの音声は精度が低かったりしますし、ところどころ専門用語の誤字があるので、完璧とは言えません。また、書き起こしの精度は音源の聞きやすさや録音状況に左右されます。この点、DTMソフトのiZOTOPE社のノイズ処理ソフトなどを使うと更に高い精度で文字起こしができると思います。

更に、書き起こした文章の要約に関して、公開されているサンプルコードを参考にしながら、少しカスタマイズを行いました。インタビューしてから数日後に内容を確認する用途で、2000文字単位での要約や、インタビュー全体の要約は書き手にとって利便性がありそうな気がします。


こちらのYoutube動画をサンプルで使ってみました。

Youtubeの全文書き起こし
2000文字単位での要約と、全体の要約

生成AIで記事ライティングの生産性を飛躍的に向上できるか?

今回の要件を満たすためにいろいろ試してみた結果、Pytonの最小限のコーディングで、実務に役立つ多くのことが自動化できることに驚かされました。そして、Google Colabのような開発環境やOpenAIのAPIの高性能にも感動しました。

何より、1本数千円〜数万円前後する有人の文字起こしサービスに依頼するのと同程度のクオリティなので、「数円 & 数分」のコストで成果物が生成できるのは驚異的だと思いました。また、日本語的な誤字脱字や表記ゆれが一切ないのは、事後の校正を考えると圧倒的に負担軽減になりました。

今後は、掲載先の媒体の記事を学習データとして、より媒体に特化した文字起こしと要約という機能拡張にチャレンジしてみたいと思います。

以上が、OpenAI社の「Whisper」と、Google社の「GoogleColab」の活用事例でした。音声や映像の書き起こし作業の負担を軽減し、記事執筆で効率的な手法となり得ると思います。


この記事が参加している募集

ライターの仕事

AIとやってみた

この記事が気に入ったらサポートをしてみませんか?