とりあえず、記録を残しておく ReazonSpeech https://research.reazon.jp/projects/ReazonSpeech/index.html NeMo https://github.com/NVIDIA/NeMo rinna、日本語音声処理に適した事前学習モデルを公開 → 動作せん謎 https://rinna.co.jp/news/2024/03/20240307.html
だからアプリの起動時にモデルを立ち上げるのは厳しいかもしれん。流石に裏で動かしても1分は待てないだろう。Nvidia Nemoはどこで使われているのか、なぜ、Cythonなのかも謎、ただ、今のところ認識の品質は良さそうだ。秒数にもよるが17秒→3秒で認識していた
ReazonSpeechを使用したのだけど、処理速度は課題かもしれん。GoogleコラボのGPU使用したらtranscribe3秒程度だったんだけどCPUでは10数秒かかる。loadもGPUで1分弱なので常に起動させとく必要ありかも https://github.com/reazon-research/ReazonSpeech