見出し画像

Google Colab ではじめる VOICEVOX

「Google Colab」で「VOICEVOX」による音声合成を試してみたので、まとめました。

・VOICEVOX v11.4

1. VOICEVOX

VOICEVOX」は、無料で使えるテキスト読み上げソフトウェアです。

2. Colabでの実行

Colabでの実行手順は、次のとおりです。

(1) Colabで新規ノートブックを作成。

(2) パッケージのクローンとセットアップ。

# パッケージのクローンとセットアップ
!git clone https://github.com/VOICEVOX/voicevox_core -b 0.11.4
%cd voicevox_core
!python configure.py --use_gpu --voicevox_version 0.11.4

以下のように、ライブラリ選択が表示されたら「libcore_cpu_x64.so」(以下では2)を選択します。

Please enter number to select which library to use.
0: /content/voicevox_core/release/libcore_cpu_armhf.so
1: /content/voicevox_core/release/libcore_cpu_arm64.so
2: /content/voicevox_core/release/libcore_cpu_x64.so
3: /content/voicevox_core/release/libcore_gpu_x64_nvidia.so
Your choice: 2

(3) パッケージのインストール。

# パッケージのインストール
!pip install -r requirements.txt
!pip install .

(4) pyopenjtalkのインストール。
READMEには書いてなかったのですが、実行時に要求されたのでインストールしました。

# pyopenjtalkのインストール
!pip install pyopenjtalk

(5) 推論の実行。
完了すると「<text>-<speaker_id>.wav」が生成されます。

!python example/python/run.py \
    --text "こんにちわ" \
    --speaker_id 3 \
    --f0_speaker_id 0 \
    --f0_correct 0 \
    --root_dir_path="./release"

--text : 読み上げるテキスト
--speaker_id : 話者ID
--f0_speaker_id : 音高の話者ID(デフォルト値: speaker_id)
--f0_correct : 音高の補正値(デフォルト値:0、+-0.3くらいで結果が変わる)
--root_dir_path : onnxファイル等必要なファイルがあるディレクトリ
--use_gpu : GPUの利用

話者IDは、次のとおりです。

・四国めたん
 ・ノーマル : 2
 ・あまあま : 0
 ・ツンツン : 6
 ・セクシー : 4

・ずんだもん
 ・ノーマル : 3
 ・あまあま : 1
 ・ツンツン : 7
 ・セクシー : 5

・春日部つむぎ
 ・ノーマル : 8

・雨晴はう
 ・ノーマル : 10

・波音リツ
 ・ノーマル : 9

・玄野武宏
 ・ノーマル : 11

・白上虎太郎
 ・ノーマル : 12

・青山龍星
 ・ノーマル : 13

・冥鳴ひまり
 ・ノーマル : 14

・九州そら
 ・ノーマル : 16
 ・あまあま : 15
 ・ツンツン : 18
 ・セクシー : 17
 ・ささやき : 19

(6) 左端のフォルダアイコンのファイル一覧から、wavをダウンロードして音声を確認。
再生すると、ずんだもんの声で「こんにちわ」と言ってくれます。

3. 参考

4. 関連


この記事が気に入ったらサポートをしてみませんか?