見出し画像

Style-Bert-VITS2:人の感情も表現する、日本語特化型のテキスト読み上げAI(TTS)を紹介!もう自分の声を録音して動画を撮る時代は過ぎました!

どうも皆さん!観葉植物は話しかけて育てるタイプの女、葉加瀬あいです!

今回は、Style-Bert-VITS2という音声合成(TTS)の技術について解説をしていきたいと思います!TTSでは、テキストを入力すると、そのテキストを音声学習したAIモデルが読み上げ音声を再生してくれます。

実際に聞いたほうが早いと思いますので、まずは参考程度にこちらの動画をご覧ください。


TTSツールの現状と課題

TTSのツールには様々なものがあり、Hugging FaceなどのAI研究者が運営するブログでも、どのTTS音声合成モデルが優れているかが議論されています。現在、性能が評価されているTTSの音声合成サービスには以下のようなものがあります。

  • ElevenLabs (proprietary)

  • MetaVoice

  • OpenVoice

  • Pheme

  • WhisperSpeech

  • XTTS

ただし、上述したTTSのツールについては、実は日本語対応しているものが少ないんです…

Style-Bert-VITS2の特徴と強み

Style-Bert-VITS2は、日本語、中国語、英語に対応した音声合成や読み上げが可能なTTSツールです。先程の参考動画でもこの技術が使用されており、かなり高いクオリティを実現しています。

先程の参考動画でもこの技術を使用しているのですが、かなりクオリティーとかも高いですよね。

さらに、Style-Bert-VITS2はテキストの読み上げ時に感情を予測し、まるで人間のような話し方をしてくれるのが大きな特徴です。
このような人間味のある喋り方を簡単にAIで生成できるのがStyle-Bert-VITS2の強みと言えるでしょう。
実際にこちらの動画では、感情を込めた読み上げについても解説されています。

この技術本当に凄いですよね。今回はこちらのStyle-Bert-VITS2のインストール方法から簡単な使い方まで解説していこうと思っておりますので、ぜひ最後まで見ていってください!

また、現在は、ChatGPTChatAIなどの文章作成機能も充実しているので、そういったツールで文章を作成し、Style-Bert-VITS2を使って読み上げを行えば、以下のように簡単にYouTubeやTikTokなどの動画も作成できるようになります。

なお、私の記事を読む上での注意事項などをこちらで説明しておりますので、以下のプロフィール記事をご一読いただいた上で閲覧するようお願いいたします。

また、ChatAIのオススメや基礎知識についても、私のプロフィール記事内で解説しておりますので、興味のある方はぜひそちらもご覧ください。

それでは、早速続きを解説していきましょう!


Style-Bert-VITS2で何ができるのか?

まずは、Style-Bert-VITS2を使ってどのようなことができるのかを説明します。主な機能は以下の通りです。

  • 入力されたテキストをもとに、感情豊かな音声を生成する

    • 嬉しい感じ、怒っている感じ、悲しい感じなど、読み上げスタイルを選択可能

  • 音声合成モデルの学習を行うことができる

  • 音声合成モデルのマージが可能(AのモデルとBのモデルの中間の声の音声合成モデルを作成)

  • 音声合成モデルに使用するデータセットの加工や作成ができる

    • 音声ファイルのテキスト抽出とスライス処理で適切な長さの音声ファイルに分割

    • テキスト抽出にはWhisperのモデル「large-v2」を使用

  • 読み上げ時の声のスタイル(怒っている感じ、嬉しい感じなど)の作成ができる

つまり、Style-Bert-VITS2では、音声合成モデルの作成既存モデルを使ったテキストの読み上げなどが可能です。

操作画面はこのようになっています(右下に初音ミクのようなネコミミの女の子が写っていますね。笑)。

Style-Bert-VITS2が優れている点

Style-Bert-VITS2が優れている点は、以下の2つが挙げられます。

  1. 日本語特化版「JP-Extra」の登場により、日本語の発音やアクセント、イントネーションなどが自然に表現できるようになった

  2. スタイルテキストの作成・編集機能により、AIに感情を乗せてテキストを読み上げるカスタマイズが可能

2024年2月4日に「JP-Extra」が、こちらでも使用できるようになり

実はこちらの技術自体は以前から存在していて、私も知っていたのですが、最近、日本語の発音やアクセント、イントネーションなどといったものの、自然な雰囲気が表現できるようになり、読み上げに関してもとてもクリアでがたつきがなくしゃべることができ一気に実用的に使用することができるレベルまで上がりました。

特に、2024年2月4日に「JP-Extra」がサポートされたことで、日本語TTSの問題点だった「外国人が日本語を喋っているような感じ」の印象が大幅に改善されました。これは、パラメータ数の増加音程の予測機能の変更などが影響しているようです(若干声の再現度が落ちているとの報告もありますが、個人的には気になりません。笑)。

スタイルテキストの作成・編集機能は、AIに感情を乗せて、テキストを読み上げると言う独自の機能をカスタマイズできると言うところがすごい嬉しいポイントですよね!

つまりは、怒っているや、悲しいや嬉しいなどといった感情の表現の仕方を調整することができるので、とても柔軟な音声合成モデルの作成が可能になっております!

デモは以下のURLで試すことができますので、まずはこちらで体験してみてください!
(デモを使用すると少しクオリティが低いように感じてしまう方もいるようですが、実際に作成された他の音声合成モデルを使用するとそのクオリティがとてもよくわかるかと思います!)


Style-Bert-VITS2のインストール方法

それでは、Style-Bert-VITS2のインストール方法を解説していきます。今回はWindowsを対象とした手順になります。

※MacBookユーザーの方はまだサポートされていないので、BootcampやVM仮想環境などを使ってWindows環境をインストールしてから使用してください。

読み上げなどの音声合成を行うだけであれば、CPUでも動作するとのことなので、高性能なグラフィックボードを搭載したPCをお持ちでない方でも使用できます。ただし、学習モデルの作成はCPUでは難しいでしょう。

学習モデルの作成については、有志の方がGoogle Colabを使った方法を案内してくれています。TTSの音声学習モデルを作成したい場合は、こちらのノートブックを使用すれば大丈夫です。

ここから先は

2,813字 / 15画像

この記事が参加している募集

AIとやってみた

この記事が気に入ったらサポートをしてみませんか?