GPT-3やDALL•E 2を公開しているOpenAI社より9月21日に音声認識Whisperが公開されました。
この記事では、Whisperの特徴など詳細は割愛しますが、実際に使ってみてどのくらいすごかったのか、どのくらい日本語を書き起こすことができたのかをご紹介します。
詳細が知りたい方はこちらの神サイトクラスメソッドさんのサイトをご覧ください。
前提
Google Colaboratory GPU環境でWhisper公式ドキュメントに従って実行
音声データはGoogleが公開しているサンプルアナウンス音声(WAV)48秒4.6MBを使用
モデルが5つ用意されていて、それぞれパラメータ数が異なり、実行時間も異なっている。今回はこの5つ全てのモデルを同一音声ファイルに対して実行してみた
結果
tiny 5s
base 6s
small 19s
medium 49s
large 68s
考察
電話番号を正しく書き起こせたのはsmall以上
「小幅続伸」を正しく書き起こせたのはlargeだけ
22円72銭はlargeでさえ、22円72,000となってしまったのは仕方ない。ニュースを読む場合頻出だと思うので、このあたりはファインチューングが必要そう
tinyを使うのは現実的じゃなさそう
mediumがギリギリリアルタイム翻訳に使えそう
largeが一番精度が高いが実行時間が音声ファイルの1.5倍程度かかってしまっているので、後から集計したりバックグラウンドで並列実行させるなどの工夫が必要そう(GPUの性能を上げることで改善できるとは思うが)
精度という観点では、Google のSpeech-to-Textによる文字起こしと、あまり大きな差は感じられなかったというのが正直なところかもしれないんですが、やっぱり今回はオープンソースとして公開されたということが圧倒的な
すごさですよね。
参考にまで、GoogleのSpeech-to-Textの料金表です。
https://cloud.google.com/speech-to-text/pricing