見出し画像

AIによる文字起こしのコストを30%削減するテクニック

OpenAIのコミュニティに投稿されていた文字起こしについてのアイデアが面
白かった。

"クレイジーなアイデアか、実現可能か:テープ起こしコストを30%削減するテクニック" 

生成AIのポッドキャストを運営していることもあり文字起こしはキャッチアップしているのでメモ。

音声ファイルを軽くするアプローチ

Whisperで文字起こしをする時、音声ファイルの容量が軽ければいいよね?というアプローチ。

  • 音声の無音部分を削除

  • 音声の再生速度を速める

結果、音声ファイルを軽くできてコストを削減できるという考え。音声の処理はサーバー側で行う。

画像引用

手動でするなら音声編集ツール使ってもよさそう。

Data Analystで音声ファイルを操作する

ちなみにChatGPT(Data Analyst)でも音声ファイルの処理は可能で、シンプルなプロンプトでも無音部分を削除したり再生速度を速めることができる

オーディオファイルに対してpydubとffmpeg を使い無音部分を除去してください
オーディオファイルに対してpydubとffmpeg を使い再生速度をx倍にしてください。

pydubとffmpegはPythonのライブラリで音声ファイルを操作できる。
これで無音部分が除去され再生速度が速くなった音声ファイルをダウンロードできる。

ChatGPT

考慮点

2倍だと聞き取れないので1.2倍くらいが良い塩梅かも。この辺は話者の会話速度にもよるので個別に対応。

あと他ユーザーが指摘しているように、キャプションを作成する時には考慮する必要がある。元の音声と削減した音声の経過時間に違いが出るため。
シンプルに文字起こししたいケースでは使えそう。 

この記事が気に入ったらサポートをしてみませんか?