見出し画像

Style-Bert-VITS2で作った音声合成モデルをパワーアップ!スタイル分け・マージ などを詳細解説!

どうも皆さん!本は紙の匂いを嗅ぎながら読むタイプの女、葉加瀬あいです!

前回、こちらの投稿でStyle-Bert-VITS2を使用した学習モデルの作成方法について解説しましたね!

今回からは、前回の音声合成モデルの作成にプラスして、音声合成モデルのスタイル生成マージ他ツールとの便利な組み合わせについて解説していきたいと思います!

はじめに

前回の記事の振り返り

なお、前回の記事は以下になりますので、こちらの記事で解説している基礎知識やStyle-Bert-VITS2などのAIツールの基本的な使い方については、理解しているものとして解説を進めていきます!まだ読まれていない方は、こちらの3つの記事を読んでみてください!

①Style-Bert-VITS2の使い方

GPT-SoVITSStyle-Bert-VITS2で叶える、あなただけの音声合成モデル作成術

③音声合成モデルの作成方法


今回の記事の内容と注意事項

なお、私の記事を読む上での注意事項などをこちらで説明しておりますので、以下のプロフィール記事をご一読いただいた上で閲覧するようお願いいたします。

それでは、早速続きを解説していきたいと思います!


Style-Bert-VITS2の音声合成モデルをさらに活用する方法

スタイル分け機能でAIに感情表現を学習させる

まずは、スタイル分け機能について、解説をしていきます!

前回紹介した記事のように、自分で音声合成モデルを作成した場合、最初は平均スタイルであるニュートラルしか利用できません。そこで、スタイル分け機能を使って、様々な人間の感情のスタイルをAIに学習させていきます。

このスタイル分け機能を使用すると、例えば皆さんの学習させた音声合成モデルの声を参照して、「嬉しい、悲しい、怒っている、セクシー、驚いている」などの人間の表現したAI読み上げが実現できます!

スタイル分けの手順

ここから先は

2,318字 / 8画像

この記事が参加している募集

AIとやってみた

この記事が気に入ったらサポートをしてみませんか?