Style-Bert-VITS2：人の感情も表現する、日本語特化型のテキスト読み上げAI（TTS）を紹介！もう自分の声を録音して動画を撮る時代は過ぎました！

ハカセアイ🎧“動画 + Note” でAI技術を裏研修🔥あいラボの詳細はプロフィール欄まで⟡.·🎈

2024年3月18日 13:22

どうも皆さん！観葉植物は話しかけて育てるタイプの女、葉加瀬あいです！

今回は、Style-Bert-VITS2という音声合成(TTS)の技術について解説をしていきたいと思います！TTSでは、テキストを入力すると、そのテキストを音声学習したAIモデルが読み上げ音声を再生してくれます。

実際に聞いたほうが早いと思いますので、まずは参考程度にこちらの動画をご覧ください。

Style-Bert-VITS2
吾輩は猫であるを歌ってみた
私は砂糖と塩を間違えるタイプの料理人なのだ
©SSS pic.twitter.com/AVYeWpmray
— くーにゃ🍃✨ (@currnya) January 22, 2024

少し前に見つけた音声生成AI「Style-Bert-VITS2 JP-Extra」をさくらの声でもやってみた
ほんの3年前くらいは何時間分も教師データが必要だったし、それでもこんなに高品質にはならなかったわけで
かがくのちからってすげー!#ユージェネライブ pic.twitter.com/tqmfS7e6Q1
— みっきー#埴輪推 (@yougene828) February 26, 2024

TTSツールの現状と課題

TTSのツールには様々なものがあり、Hugging FaceなどのAI研究者が運営するブログでも、どのTTS音声合成モデルが優れているかが議論されています。現在、性能が評価されているTTSの音声合成サービスには以下のようなものがあります。

ElevenLabs (proprietary)
MetaVoice
OpenVoice
Pheme
WhisperSpeech
XTTS

ただし、上述したTTSのツールについては、実は日本語対応しているものが少ないんです…

Style-Bert-VITS2の特徴と強み

Style-Bert-VITS2は、日本語、中国語、英語に対応した音声合成や読み上げが可能なTTSツールです。先程の参考動画でもこの技術が使用されており、かなり高いクオリティを実現しています。

先程の参考動画でもこの技術を使用しているのですが、かなりクオリティーとかも高いですよね。

さらに、Style-Bert-VITS2はテキストの読み上げ時に感情を予測し、まるで人間のような話し方をしてくれるのが大きな特徴です。
このような人間味のある喋り方を簡単にAIで生成できるのがStyle-Bert-VITS2の強みと言えるでしょう。
実際にこちらの動画では、感情を込めた読み上げについても解説されています。

日本でも自然な音声合成ができるAIが登場！Style-Bert-VITS2！

こちら以前話題になった、自然な日本語の読み上げと感情表現の追加をやってくれる音声合成のAIツールになります！

ついに日本語の長文にも対応したんですかね？… pic.twitter.com/x6qS6fhifJ
— 葉加瀬あい (AI-Hakase) ✎. 楽曲制作＋AI解説＋保護猫活動🐾 をしている理系女子🎈 (@ai_hakase_) February 8, 2024

この技術本当に凄いですよね。今回はこちらのStyle-Bert-VITS2のインストール方法から簡単な使い方まで解説していこうと思っておりますので、ぜひ最後まで見ていってください！

また、現在は、ChatGPTやChatAIなどの文章作成機能も充実しているので、そういったツールで文章を作成し、Style-Bert-VITS2を使って読み上げを行えば、以下のように簡単にYouTubeやTikTokなどの動画も作成できるようになります。

この位だったらプログラミングがわからない人でもキャラクター触りつつ楽しんで学べるのかなぁ。私も初心者だが。キャラが動くだけで嬉しさは増す。どんな長いテキストでもコピペすればキャラクターが読み上げてくれる的な参考資料デモ。Style-Bert-VITS2とVTube Studioだけなので無料で作れる。 pic.twitter.com/IBCq7BySpO
— ろてじん (@rotejin) February 15, 2024

なお、私の記事を読む上での注意事項などをこちらで説明しておりますので、以下のプロフィール記事をご一読いただいた上で閲覧するようお願いいたします。

また、ChatAIのオススメや基礎知識についても、私のプロフィール記事内で解説しておりますので、興味のある方はぜひそちらもご覧ください。

それでは、早速続きを解説していきましょう！

Style-Bert-VITS2で何ができるのか？

まずは、Style-Bert-VITS2を使ってどのようなことができるのかを説明します。主な機能は以下の通りです。

入力されたテキストをもとに、感情豊かな音声を生成する
- 嬉しい感じ、怒っている感じ、悲しい感じなど、読み上げスタイルを選択可能
音声合成モデルの学習を行うことができる
音声合成モデルのマージが可能（AのモデルとBのモデルの中間の声の音声合成モデルを作成）
音声合成モデルに使用するデータセットの加工や作成ができる
- 音声ファイルのテキスト抽出とスライス処理で適切な長さの音声ファイルに分割
- テキスト抽出にはWhisperのモデル「large-v2」を使用
読み上げ時の声のスタイル（怒っている感じ、嬉しい感じなど）の作成ができる

つまり、Style-Bert-VITS2では、音声合成モデルの作成や既存モデルを使ったテキストの読み上げなどが可能です。

操作画面はこのようになっています（右下に初音ミクのようなネコミミの女の子が写っていますね。笑）。

Style-Bert-VITS2が優れている点

Style-Bert-VITS2が優れている点は、以下の2つが挙げられます。

日本語特化版「JP-Extra」の登場により、日本語の発音やアクセント、イントネーションなどが自然に表現できるようになった
スタイルテキストの作成・編集機能により、AIに感情を乗せてテキストを読み上げるカスタマイズが可能

2024年2月4日に「JP-Extra」が、こちらでも使用できるようになり

実はこちらの技術自体は以前から存在していて、私も知っていたのですが、最近、日本語の発音やアクセント、イントネーションなどといったものの、自然な雰囲気が表現できるようになり、読み上げに関してもとてもクリアでがたつきがなくしゃべることができ一気に実用的に使用することができるレベルまで上がりました。

特に、2024年2月4日に「JP-Extra」がサポートされたことで、日本語TTSの問題点だった「外国人が日本語を喋っているような感じ」の印象が大幅に改善されました。これは、パラメータ数の増加や音程の予測機能の変更などが影響しているようです（若干声の再現度が落ちているとの報告もありますが、個人的には気になりません。笑）。

スタイルテキストの作成・編集機能は、AIに感情を乗せて、テキストを読み上げると言う独自の機能をカスタマイズできると言うところがすごい嬉しいポイントですよね！

つまりは、怒っているや、悲しいや嬉しいなどといった感情の表現の仕方を調整することができるので、とても柔軟な音声合成モデルの作成が可能になっております！

デモは以下のURLで試すことができますので、まずはこちらで体験してみてください！
（デモを使用すると少しクオリティが低いように感じてしまう方もいるようですが、実際に作成された他の音声合成モデルを使用するとそのクオリティがとてもよくわかるかと思います！）

Style-Bert-VITS2のインストール方法

それでは、Style-Bert-VITS2のインストール方法を解説していきます。今回はWindowsを対象とした手順になります。

※MacBookユーザーの方はまだサポートされていないので、BootcampやVM仮想環境などを使ってWindows環境をインストールしてから使用してください。

読み上げなどの音声合成を行うだけであれば、CPUでも動作するとのことなので、高性能なグラフィックボードを搭載したPCをお持ちでない方でも使用できます。ただし、学習モデルの作成はCPUでは難しいでしょう。

学習モデルの作成については、有志の方がGoogle Colabを使った方法を案内してくれています。TTSの音声学習モデルを作成したい場合は、こちらのノートブックを使用すれば大丈夫です。

ここから先は

2,813字 / 15画像

🎈葉加瀬のAI研究室 ~あいラボ~ ：動画＆質疑応答プラン

¥2,599 / 月

あと15人募集中

最新のお得なAI技術が動画×Note で見れます✨ １．技術的な質問・アドバイスが自由！２．本当は教えたくない、希少な技術やワークフローを惜しみなく公開！３．参加人数を200人に制限！詳細はこちら：https://x.gd/8phlM またはXのDMまで💌 ̖́-

メンバー限定の会員証が発行されます
活動期間に応じたバッジを表示
メンバー限定掲示板を閲覧できます

このメンバーシップの詳細

ログイン

この記事が参加している募集

#AIとやってみた

33,482件

この記事が気に入ったらサポートをしてみませんか？