Google Colab ではじめる OpenAI Whisper

2022年9月22日 11:37

「Google Colab」でOpenAIの「Whisper」を試してみました。

1. Whisper

「Whisper」は、OpenAIが開発した、会話音声をテキストに変換するニューラルネットです。英語の音声認識において人レベルに近い堅牢性と精度を持ちます。大規模で多様な教師付きデータセットにより、アクセント、背景雑音、専門用語に対して堅牢性を向上させています。

Colabでの実行手順は、次のとおりです。

(1) Colabで新規ノートブックを作成。
(2) パッケージのインストール。

# パッケージのインストール
!pip install git+https://github.com/openai/whisper.git
!sudo apt update
!sudo apt install ffmpeg

(3) 日本語の会話音声のwavファイルの準備。
今回は、つくよみちゃんの「VOICEACTRESS100_026.wav」で試しました。

「現在、ニュージャージー州、ムーアズタウンに住んでいる。」

(4) 右端のフォルダアイコンを押し、「..」で1階層上に移動し、contentの「︙」の「アップロード」からwavファイルを選択。

(5) 日本語の会話音声を日本語テキストに変換。

!whisper VOICEACTRESS100_026.wav --language Japanese

[00:00.000 --> 00:03.800] 現在、ニュージャージー州、ムーアズタオンに住んでいる

(6) 日本語の会話音声を英語テキストに変換。

!whisper VOICEACTRESS100_026.wav --language Japanese --task translate

[00:00.000 --> 00:04.060]  Currently, New Jersey does habitually live.

この記事が気に入ったらサポートをしてみませんか？