【性能ベンチマーク】OpenAIの音声認識モデルWhisper vs AppleのSpeechフレームワーク

2023年8月16日 14:59

近年、音声認識技術は急速に進化しており、我々の日常生活に深く組み込まれてきました。スマートフォンのボイスアシスタントから、自動運転車の指示まで、私たちは音声によるコミュニケーションの便益を享受しています。この分野の進歩には、さまざまなテクノロジー企業が独自のアプローチを追求しており、その中でもOpenAIのWhisperはその優れた性能で注目を集めています。

一方より身近なところの目を向けてみると、既にiOS 10から独自の音声認識技術であるSpeechフレームワークが存在していて、Siriやキーボードの音声入力はもちろんのこと、多くのアプリでこの技術が利用されており我々はiPhoneを通してその恩恵を享受してきました。

WhisperとSpeechフレームワークは、音声認識技術の分野において、それぞれ独自の特徴と革新を提供しています。OpenAIのWhisperは、その先進的なニューラルネットワークアーキテクチャにより、高度な音声認識精度を実現しています。一方、AppleのSpeechフレームワークは、同社のエコシステムと統合された設計により、シームレスなユーザーエクスペリエンスを提供しています。

この記事では、WhisperをiOSアプリに組み込んだものと、Speechフレームワークの性能をベンチマークを取って比較し、現時点でどちらのアプローチが適しているのか私なりの意見を述べさせていただきます。

無論、どちらの技術も継続的な研究と開発が進行中であり、この記事の執筆時点での情報を元に比較を行います。それでは、WhisperとSpeechフレームワークのiOSアプリにおける現時点の性能について見ていきましょう。

性能比較の方法

方針

今回はインターネットで拾ってきたアナウンス音声のwavファイルと、私がiPhoneのボイスレコーダーで録音した音声の2つを利用して、それぞれWhisperとSpeechフレームワークに処理された時の処理時間と処理結果を比較検討します。

Whisperの実装

WhisperをiOSアプリで利用するにあたってオープンソースソフトウェアのwhisper.cppを利用しました。
https://github.com/ggerganov/whisper.cpp#memory-usage

ベンチマーク計測にあたってはwhisper.cppのGitHubレポジトリにあるサンプルアプリを利用しました。

Whisperのモデル種類

Whisperのモデルの種類についてはtiny, base, small, mediumの4種類それぞれについてベンチマークを計測します。後で再度詳しく言及はしますが、Whisperの利用には膨大なRAM容量が必要になり、largeモデルはそもそも現時点のiPhoneでは動かすことすらできないため、今回の検証対象には入っていません。

ハードウェア

ベンチマーク計測に用いるiPhoneの実機端末は以下の2種類です。

iPhone SE 第3世代（iOS 16）
iPhone 7 (iOS 15)

ここから先は

1,096字

¥ 500

期間限定 PayPay支払いすると抽選でお得に！

ログイン

この記事が気に入ったらサポートをしてみませんか？