見出し画像

文字起こし AI の Faster Whisper WebUI の環境を Windows11 WSL2 Ubuntu に爆速で構築する【誰でもできるよ】

昨今、生成 AI の進歩は「革新的」というスピードで成長を続けています。文字(文章)生成とプログラム作成支援の分野では ChatGPT が頭一つ抜け出している印象で、自分の PC で実行するのではなく、オンラインで実行する場合が殆どだと思います。

それに対して、画像生成、音声合成、音声認識 (文字起こし) の分野では、自分の PC の GPU を使用して、各種 AI を動作させる事が一般的になってきました。GPU の能力はある程度必要ですが、所有している PC のみを使って生成 AI を使用する事は、実は大きなメリットがあります。

それは

「情報を外部に出さないで済む」

という事です。

特に音声認識 AI を使用する事を想定した場合には、会議の議事録を作成したり、講演会の内容を文章化したりする用途が多いかと思います。そのような秘匿情報を外部の AI を使用して文章化した場合には、その音声ファイルが外部に記録され、文字生成した内容が再学習に利用されてしまい、秘匿情報が漏洩するリスクが生じる恐れがあります。(秘密保持契約を結んだ場合でも、リスクを考慮しておく必要があるかと思います)

OpenAI が公開している音声認識 AI の Whisper を高速化した Faster Whisper と、その WebUI を使用すれば、外部に音声ファイルを出すことなく、音声認識結果の文章を入手する事ができます。

この記事は、Faster Whisper WebUI を WSL2 Ubuntu へインストール・設定する方法を「誰でもできる」形でまとめました。コマンド部分をコピペして実行するだけで、Faster Whisper WebUI が使えるようになります。

記事を作成後、ゼロから環境を作成したところ、約14分で Faster Whisper WebUI の動作する環境を構築する事ができました。殆どがダウンロードに要する時間ですので環境に依存しますが「爆速」ですよね。

コマンドの意味などの説明は最小限としますので、必要に応じてググる等で対処下さい。


前提条件

WSL2 Ubuntu のインストールと簡単な使い方については、次の二つの記事にまとめました。

この二つの記事を読んで理解して頂いた上で、次の条件で Faster Whisper WebUI の環境を WSL2 Ubuntu に構築します。

  • Windows11 WSL2 Ubuntu 22.04.4 LTS

  • apt update & apt upgrade 済

  • Python 3.10.12

  • nVidia GPU (VRAM 12GB なら余裕、6GB あれば動作します)

WSL2 Ubuntu のバージョンは以下のコマンドをコピペで貼り付けて、Enter で実行して確認して下さい。

lsb_release -a

Python のバージョンは以下のコマンドをコピペで貼り付けて、Enter で実行して確認して下さい。

python3 -V

nVidia GPU が WSL2 Ubuntu から使えるかどうかは以下のコマンドをコピペで貼り付けて、Enter で実行して確認して下さい。(Windows11 に nVidia GPU のドライバをインストールしていれば、WSL2 Ubuntu で nvidia-smi コマンドが実行できます)

nvidia-smi
WSL2 Ubuntu と Python のバージョン確認
nvidia-smi の実行結果

実行結果が上の画面のようになれば OK です。

他の WSL2 Ubuntu のバージョン、Python のバージョンでも、Faster Whisper WebUI は動作するかもしれませんが、本記事の対象範囲外となります。ご自分で挑戦して頂くか、新しく WSL2 Ubuntu 22.04.4 LTS の環境を作成下さい。(私は 20.04 LTS から 22.04 LTS の環境を作り検証しました)

必要なパッケージのインストール

この後で必要となるパッケージを予めインストールしておきます。使用するのは、

  • git (導入済み)

  • python3 (導入済み)

  • python3-venv

  • ffmpeg

です。

一括でインストールします。以下のコマンドをコピペで貼り付けて、Enter で実行して下さい。

sudo apt install git python3 python3-venv ffmpeg --no-install-recommends

sudo コマンドはパスワードを要求しますので、設定した自分のパスワードを入力して Enter を押します。(パスワードは画面に何も表示されません)

依存するパッケージも含めてインストールします。

インストール時メッセージ

"Do you want to continue? [Y/n] " と表示されたら、'y' を入力し Enter を押します。

インストール終了時

エラーなくインストールが終了すると上のような画面となります。エラーが生じた場合には、「はじめに」に記載した記事を参照して、インストールに失敗する原因を探して下さい。(殆どの場合、ネットワークへ接続できていない事が原因です)

CUDA 12 インストール

CUDA (Compute Unified Device Architecture) toolkit は、nVidia 社の GPU で生成 AI を動作させるのに必要なライブラリ群です。

様々なバージョンがありますが、この後でインストールする Faster Whisper は CUDA 12、PyTorch は CUDA 12.1 を要求しますので、今回は CUDA 12.1 Update1 を使用します。

(Faster Whisper の github には CUDA 11 を使用すると書かれていますが、Ver.1.0.1 からは CUDA 12 じゃないと動作しません。ドキュメントが追いついていないようです)

一行ずつコピペして、Enter で実行して下さい。

wget https://developer.download.nvidia.com/compute/cuda/repos/wsl-ubuntu/x86_64/cuda-wsl-ubuntu.pin
sudo mv cuda-wsl-ubuntu.pin /etc/apt/preferences.d/cuda-repository-pin-600
wget https://developer.download.nvidia.com/compute/cuda/12.1.1/local_installers/cuda-repo-wsl-ubuntu-12-1-local_12.1.1-1_amd64.deb
sudo dpkg -i cuda-repo-wsl-ubuntu-12-1-local_12.1.1-1_amd64.deb
sudo cp /var/cuda-repo-wsl-ubuntu-12-1-local/cuda-*-keyring.gpg /usr/share/keyrings/
sudo apt-get update
sudo apt-get -y install cuda

インストール中、インストール完了時の画面は次の通りです。

CUDA インストール中の画面 1
CUDA インストール中の画面 2
CUDA インストール中の画面 3
CUDA インストール完了

CUDA が正常にインストールされたかどうかは、次のコマンドをコピペで貼り付けて、Enter で実行し確認します。

/usr/local/cuda/bin/nvcc -V
nvcc コマンドの実行結果

nvcc コマンドのバージョンが表示されれば、CUDA は正常にインストールされています。

deb ファイルが残りますが、消去してかまいません。次のコマンドをコピペで貼り付けて Enter で実行します。

rm cuda-repo-wsl-ubuntu-12-1-local_12.1.1-1_amd64.deb

コマンドのみを順次実行して、ここまで要した時間は約5分です。

Faster Whisper WebUI インストール

Faster Whisper は 2024年3月1日に Ver.1.0.1 にアップデートされました。また、Faster Whisper 専用の WebUI が Hugging Face で公開されました。

ここから先は

5,997字 / 17画像

¥ 300

この記事が気に入ったらサポートをしてみませんか?