無料の音声編集ソフト「Audacity」で文字起こし

2024年12月8日 13:48

CHATGPTではうまくいかない！？

1時間ほどの長さのWAVファイルを用意して、CHATGPTで音声ファイルの文字起こしをしようと色々と試みたが、どうもうまくいかない。

さすがに、５００MBを超えるファイルはCHATGPTでは扱えないと理解した。

そこで、調べてみると、Intelから提供を受けて「Audacity」にAI機能が追加でき、「Whisper」が使えるようになったとのことだ。

AI音声認識技術の「Whisper」は、音声ファイルを解析して自動で文字起こしをしてくれる多言語対応のスーパーツールだ。

早速、試してみた。

1・「Audacity」のソフトは、バージョンは3.7.0を窓の杜からダウンロードする。

2. OpenVINO-AIプラグイン。「audacity-win-v3.7.0-R4.0-64bit-OpenVINO-AI-Plugins.exe」をダウンロードする。

１．手順１でダウンロードしたAudacityをインストールする。インストール画面で日本語を選択してインストールする。

２．次に、Audacityを起動しない状態で、手順１でダウンロードしたaudacity-win-v3.7.0-R4.0-64bit-OpenVINO-AI-Plugins.exeをダブルクリックしてインストールする。

１．「Audacity」を起動し、「編集」→「環境設定」を開く。
２．「モジュール」の「mod-openvino」を「有効」にして「OK」を押す。

一度「Audacity」を閉じて、再度「Audacity」を起動すると、AI機能が有効になっている。

音声ファイルを読み込む。「ファイル」→「インポート」→「オーディオをインポート」。対応してないフォーマットの場合はWAVに変換する。

音声ファイルが読み込だら「選択」→「すべて（Ctrl+A）」。選択した部分の文字起こしがされるので、とりあえず全部したいからすべて。

選択したら「解析」→「OpenVINO Whisper Transcription…」。

すると「OpenVINO Whisper Transcription」のウィンドウが出てくる。

ここは右下の「Source Languages」を「japanese」にして「適用」を押すと、解析が開始して文字起こしが実行される。

解析が完了すると、音声ファイルの下に文字起こしデータが追加されます。

文字起こしデータの左下のとこ（赤枠の左側）を「クリック」して選択状態にする。次に、「ファイル」→「他をエクスポート」→「ラベルをエクスポート」を選択すると、文字起こししたテキストファイルを出力できる。

文字起こしの精度は期待していたほどではなかった。
今回は参考になる複数のファイルがあったので、これらのファイルをCHATGPTに読み込みんで参考にして、文字起こし結果をCHATGPTで校正した。

結果としては満足のいく結果が得られた。

参考にできるファイルがあるときは、この方法で文字起こしをするのをお勧めします。

上記方法で参考ファイルがないものは、結論として使用できる状態のものではありませんでした。

調べると、30分無料とか1時間無料というソフトが見つかります。

その中で、automemoというオンライン文字起こしサービスがあります。このサービスは月に1回1時間無料で文字起こしができます。

ラインのお友達登録をすると、3時間プラスされて、合計4時間の文字起こしができました。

精度もなかなかよくて、簡単な修正で実用レベルになりそうです。Audacityでうまくいかない場合は、automemoを試してみて下さい。