![見出し画像](https://assets.st-note.com/production/uploads/images/87398354/rectangle_large_type_2_57defdc400195c69db0b36b388f7de22.png?width=800)
Google Colab で はじめる OpenAI Whisper
「Google Colab」でOpenAIの「Whisper」を試してみました。
1. Whisper
「Whisper」は、OpenAIが開発した、会話音声をテキストに変換するニューラルネットです。英語の音声認識において人レベルに近い堅牢性と精度を持ちます。大規模で多様な教師付きデータセットにより、アクセント、背景雑音、専門用語に対して堅牢性を向上させています。
2. Colabでの実行
Colabでの実行手順は、次のとおりです。
(1) Colabで新規ノートブックを作成。
(2) パッケージのインストール。
# パッケージのインストール
!pip install git+https://github.com/openai/whisper.git
!sudo apt update
!sudo apt install ffmpeg
(3) 日本語の会話音声のwavファイルの準備。
今回は、つくよみちゃんの「VOICEACTRESS100_026.wav」で試しました。
「現在、ニュージャージー州、ムーアズタウンに住んでいる。」
(4) 右端のフォルダアイコンを押し、「..」で1階層上に移動し、contentの「︙」の「アップロード」からwavファイルを選択。
![](https://assets.st-note.com/img/1663813824391-z1g3lTVQKi.png?width=800)
(5) 日本語の会話音声を日本語テキストに変換。
!whisper VOICEACTRESS100_026.wav --language Japanese
[00:00.000 --> 00:03.800] 現在、ニュージャージー州、ムーアズタオンに住んでいる
(6) 日本語の会話音声を英語テキストに変換。
!whisper VOICEACTRESS100_026.wav --language Japanese --task translate
[00:00.000 --> 00:04.060] Currently, New Jersey does habitually live.
![](https://assets.st-note.com/img/1663814010874-WQrdYHTxV6.png?width=800)
3. 関連
この記事が気に入ったらサポートをしてみませんか?