マガジンのカバー画像

うちのデジタル便り

27
わたしたちの日々の小さなデジタル技術活用をメモしたものです。 紆余曲折したりもしてるけれど、わたしたちは元気です。 [想定読者]デジタル技術を業務やサービス開発などに活用される方
運営しているクリエイター

#AI

3つのSpeech to Textを比較してみた|OpenAI、Google、Microsoft

Speech to Text(音声テキスト化)のモデル「Whisper」がOpenAIから公開されました。Speech to Textといえば、GoogleやMicrosoftからもAPIとして有償で提供されていますね。精度はどのくらい違うのでしょうか? ということで、OpenAI(Whisper)、Google、MicrosoftのSpeech to Textの精度をそれぞれ比較してみます。 ▍比較環境Whisper 公式のPythonでの利用例をそのまま実行しています

5行で音声テキスト化|Google Colabで動かすWhisper

OpenAIから公開された音声テキスト化モデル「Whisper」を、Google Colabで動かします。シンプルなやり方であれば、ライブラリのインストールを含めても5行で実行できます。楽ですね! とりあえず動かしたい方向けですので、より詳しい使い方を知りたい方は公式や他の記事をご参照くださいませ。 ▍事前準備Google Colabの環境準備を準備します。 1️⃣ ランタイムのタイプをGPUに変更 [ランタイム] → [ランタイムのタイプを変更]から、[ハードウェアア