見出し画像

OpenAIのWhisperによる音声認識をiOS上で動かす

Whisperの推論をハイパフォーマンスにおこなう whisper.cpp は、

Apple silicon first-class citizen - optimized via Arm Neon and Accelerate framework

とAppleのハードウェアへの最適化も行われており(Accelerate framework利用)、c/c++実装をObjective-Cコードでラップする形でmacOS, iOSもサポートされている。

なおモデルはアプリ内に同梱するので、音声認識処理はオンデバイスで行われる。(Apple標準のSpeechフレームワークもオンデバイス実行は可能なので、精度や速度面での比較が気になるところだが、今回はなし)

examples配下にサンプルもあるので、ビルドして実行してみた。動作確認環境は iOS 16.3 & Xcode 14.2。

ちなみに無事日本語も使うことができた。

固有名詞含め、結果は正解

ビルド手順

ここから先は

1,203字 / 2画像
文章やサンプルコードは多少荒削りかもしれませんが、ブログや書籍にはまだ書いていないことを日々大量に載せています。たったの400円で、すぐに購読解除してもその月は過去記事もさかのぼって読めるので、少しでも気になる内容がある方にはオトクかと思います。

技術的なメモやサンプルコード、思いついたアイデア、考えたこと、お金の話等々、頭をよぎった諸々を気軽に垂れ流しています。

最後まで読んでいただきありがとうございます!もし参考になる部分があれば、スキを押していただけると励みになります。 Twitterもフォローしていただけたら嬉しいです。 https://twitter.com/shu223/