![見出し画像](https://assets.st-note.com/production/uploads/images/113504066/rectangle_large_type_2_89cd1d12dc124a027a2d305d1a278db0.jpeg?width=800)
【性能ベンチマーク】OpenAIの音声認識モデルWhisper vs AppleのSpeechフレームワーク
近年、音声認識技術は急速に進化しており、我々の日常生活に深く組み込まれてきました。スマートフォンのボイスアシスタントから、自動運転車の指示まで、私たちは音声によるコミュニケーションの便益を享受しています。この分野の進歩には、さまざまなテクノロジー企業が独自のアプローチを追求しており、その中でもOpenAIのWhisperはその優れた性能で注目を集めています。
一方より身近なところの目を向けてみると、既にiOS 10から独自の音声認識技術であるSpeechフレームワークが存在していて、Siriやキーボードの音声入力はもちろんのこと、多くのアプリでこの技術が利用されており我々はiPhoneを通してその恩恵を享受してきました。
WhisperとSpeechフレームワークは、音声認識技術の分野において、それぞれ独自の特徴と革新を提供しています。OpenAIのWhisperは、その先進的なニューラルネットワークアーキテクチャにより、高度な音声認識精度を実現しています。一方、AppleのSpeechフレームワークは、同社のエコシステムと統合された設計により、シームレスなユーザーエクスペリエンスを提供しています。
この記事では、WhisperをiOSアプリに組み込んだものと、Speechフレームワークの性能をベンチマークを取って比較し、現時点でどちらのアプローチが適しているのか私なりの意見を述べさせていただきます。
無論、どちらの技術も継続的な研究と開発が進行中であり、この記事の執筆時点での情報を元に比較を行います。それでは、WhisperとSpeechフレームワークのiOSアプリにおける現時点の性能について見ていきましょう。
性能比較の方法
方針
今回はインターネットで拾ってきたアナウンス音声のwavファイルと、私がiPhoneのボイスレコーダーで録音した音声の2つを利用して、それぞれWhisperとSpeechフレームワークに処理された時の処理時間と処理結果を比較検討します。
Whisperの実装
WhisperをiOSアプリで利用するにあたってオープンソースソフトウェアのwhisper.cppを利用しました。
https://github.com/ggerganov/whisper.cpp#memory-usage
ベンチマーク計測にあたってはwhisper.cppのGitHubレポジトリにあるサンプルアプリを利用しました。
Whisperのモデル種類
Whisperのモデルの種類についてはtiny, base, small, mediumの4種類それぞれについてベンチマークを計測します。後で再度詳しく言及はしますが、Whisperの利用には膨大なRAM容量が必要になり、largeモデルはそもそも現時点のiPhoneでは動かすことすらできないため、今回の検証対象には入っていません。
ハードウェア
ベンチマーク計測に用いるiPhoneの実機端末は以下の2種類です。
iPhone SE 第3世代(iOS 16)
iPhone 7 (iOS 15)
ここから先は
¥ 500
この記事が気に入ったらサポートをしてみませんか?