#23 【OpenAIの"耳"】Whisperはポケモン言えるかな?を聴き取れるかな

2024年3月29日 08:19

おはようございます。

78営業日後に『生成AI活用法』セミナーを開催するアヒルです。今年度最後の日ですね。

今週は、色んな生成AIツールの音声入力を試してきました。今日は、OpenAIの音声認識モデルについて、調べたことや試したことをまとめていこうと思います。

Whisperとは？

Whisperとは、ChatGPTでお馴染みOpenAI社が発表した、音声認識モデルです。

そんなWhisperの特徴をPerplexity AIに聞いて、自分でも確認してみました。

高精度な音声認識が可能
Webから収集した68万時間分の多言語音声データを学習しているため、高い精度を実現
多言語に対応
英語のみならず、日本語を含む多言語の音声認識に対応
音声の言語認識、音声区間検出、タイムスタンプの出力
音声の言語を自動判別し、発話区間とタイムスタンプも出力
有償のAPIと無償のオープンソースコード
APIは1分あたり0.006ドルと低コストで利用可能、ソースコードを使えば独自の音声認識アプリケーションを開発できる

会議の文字起こしとかに役立ちそうなツールです。

どんなもんか実際に使ってみたいと思うのですが、簡単に試す方法として、今回はHagging Faceを使います。

Whisperでは、
マイクで音声を拾って認識するMicrophone、音声を含むファイルをアップロードして認識するAudio file、YouTubeのURLを貼って音声を認識してもらうYouTubeの3つのやり方がありました。

今回はMicrophoneとAudio fileを試してみます。

マイクを使って、ChatGPTにテキトーに作ってもらった文章を読み上げてみました。

🎵inputsの中の"Record from microphone"というボタンを押して録音を開始します。

録音を終えたら送信をして少し待つと、output欄に文字起こしの結果が現れました。

短い文章でしたが、誤字なく起こしてくれました。

Audio fileでは、懐かし(?)の「ポケモン言えるかな？BW」の一部分をアップロードし、聴き取れるのかどうか試してみました。

当時まだ小学生でしたが、CMとかでも流れていてよく耳にした気がします。

与えた音源は以下の部分です。ミジュマルとゾロアークとポカブくらいしか姿が思い浮かびません。

ミジュマル・クルミル・ダルマッカ
ダブラン・マメパト・エンブオー・ゾロアーク
ダンゴロ・ヤナップ・ゼブライカ
バオップ・ホイーガ・ヒヤップ・ポカブ！

ポケモン言えるかな？BW

Whisperからしたら呪文でしかない音声です。
もはや何語かもわからない歌詞を聞き取ってもらった結果がこちら。

今回はオープンソースの音声認識モデルを試してみました。無料版なので、データ量や速度に制限がありますが、それでも精度の高さはうっすら把握することができました。

会議の議事録作りなどはこれからAIを使うような時代になっていくと思うので、文字起こしや議事録作成ツールにもしっかりアンテナを張っていきたいところです💨

今週もお読みいただきありがとうございました！

AIとやってみた

仕事について話そう

この記事が気に入ったらサポートをしてみませんか？