Google Colab ではじめる VOICEVOX

npaka

2022年10月16日 20:44

「Google Colab」で「VOICEVOX」による音声合成を試してみたので、まとめました。

・VOICEVOX v11.4

1. VOICEVOX

「VOICEVOX」は、無料で使えるテキスト読み上げソフトウェアです。

2. Colabでの実行

Colabでの実行手順は、次のとおりです。

(1) Colabで新規ノートブックを作成。

(2) パッケージのクローンとセットアップ。

# パッケージのクローンとセットアップ
!git clone https://github.com/VOICEVOX/voicevox_core -b 0.11.4
%cd voicevox_core
!python configure.py --use_gpu --voicevox_version 0.11.4

以下のように、ライブラリ選択が表示されたら「libcore_cpu_x64.so」(以下では2)を選択します。

Please enter number to select which library to use.
0: /content/voicevox_core/release/libcore_cpu_armhf.so
1: /content/voicevox_core/release/libcore_cpu_arm64.so
2: /content/voicevox_core/release/libcore_cpu_x64.so
3: /content/voicevox_core/release/libcore_gpu_x64_nvidia.so
Your choice: 2

(3) パッケージのインストール。

# パッケージのインストール
!pip install -r requirements.txt
!pip install .

(4) pyopenjtalkのインストール。
READMEには書いてなかったのですが、実行時に要求されたのでインストールしました。

# pyopenjtalkのインストール
!pip install pyopenjtalk

(5) 推論の実行。
完了すると「<text>-<speaker_id>.wav」が生成されます。

!python example/python/run.py \
    --text "こんにちわ" \
    --speaker_id 3 \
    --f0_speaker_id 0 \
    --f0_correct 0 \
    --root_dir_path="./release"

--text : 読み上げるテキスト
--speaker_id : 話者ID
--f0_speaker_id : 音高の話者ID（デフォルト値: speaker_id）
--f0_correct : 音高の補正値（デフォルト値:0、+-0.3くらいで結果が変わる）
--root_dir_path : onnxファイル等必要なファイルがあるディレクトリ
--use_gpu : GPUの利用

話者IDは、次のとおりです。

・四国めたん
　・ノーマル : 2
　・あまあま : 0
　・ツンツン : 6
　・セクシー : 4

・ずんだもん
　・ノーマル : 3
　・あまあま : 1
　・ツンツン : 7
　・セクシー : 5

・春日部つむぎ
　・ノーマル : 8

・雨晴はう
　・ノーマル : 10

・波音リツ
　・ノーマル : 9

・玄野武宏
　・ノーマル : 11

・白上虎太郎
　・ノーマル : 12

・青山龍星
　・ノーマル : 13

・冥鳴ひまり
　・ノーマル : 14

・九州そら
　・ノーマル : 16
　・あまあま : 15
　・ツンツン : 18
　・セクシー : 17
　・ささやき : 19

(6) 左端のフォルダアイコンのファイル一覧から、wavをダウンロードして音声を確認。
再生すると、ずんだもんの声で「こんにちわ」と言ってくれます。

3. 参考

4. 関連

この記事が気に入ったらサポートをしてみませんか？