見出し画像

自分だけの声で動画コンテンツを作ろう!GPT-SoVITSとStyle-Bert-VITS2で叶える、あなただけの音声合成モデル作成術

どうも皆さん!コーヒーは豆から挽くタイプの女、葉加瀬あいです!以前の記事で、人間の感情を表現できるすごい音声合成AI「Style-Bert-VITS2」の凄さや使い方、できることについて解説しました。

今回は、このツールで使用できる学習モデルの作り方を解説していきたいと思います!

音声合成モデルの作り方がわかると、Style-Bert-VITS2を使ってAIにテキストをしゃべらせる際に、皆さんが好きな声でしゃべらせることができるんですよね。自分の声を学習させたり、許可を得た他の声を使って、YouTubeやTikTokなどで動画コンテンツをもっと楽に配信したい方には必見の内容になっていますので、ぜひ最後まで見ていってください!

なお、私の記事を読む上での注意事項などをこちらで説明しておりますので、以下のプロフィール記事をご一読いただいた上で閲覧するようお願いいたします。

それでは、早速続きを解説していきたいと思います!


Style-Bert-VITS2で自分の声を使った音声合成モデルを作ろう

AIに学習させるデータセット(サンプル音声)の準備方法

音声合成モデルを作成するには、まずAIに学習させるデータセット(サンプルの音声)が必要になります。必要なサンプル音声は大体数分から数十分くらいのものが好ましいです。

とはいっても、皆さんそんなに音声のサンプルをお持ちではないですよね?そこで、まずは他のAIツールを使ってそのサンプル音声を用意してしまおうというのが、今回の記事の趣旨になります!

音声合成モデルの具体的な作成においては、このデータセットの準備をしないと何も始まりません。
データセットの準備と学習をセットで解説してしまうと膨大な量になってしまうので、皆さんの見やすさを重視して、具体的な学習フローについては次の記事で解説していきたいと思います。

Style-Bert-VITS2の音声合成モデルの学習に使う音声データは「GPT-SoVITS」を使って作成することもできます。

GPT-SoVITSを使った音声サンプルの作成

わずか5秒の音声データがあれば、声を再現でき、なおかつ多言語にも変換可能なTTS、それがGPT-SoVITSです!

ゼロショットTTSで高品質な音声合成を実現するGPT-SoVITS

このツールは、ゼロショットTTSと呼ばれる技術を用いて、1分間や5秒間といった非常に短い音声ファイルから音声合成モデルを作成できます。

AIは基本的に与えられた音声(データセット)からしか音声合成ファイルを作成できませんが、GPT-SoVITSでは与えられていない情報や話者の声の特徴なども予測して音声合成を行ってくれるのが大きな特徴です。

しかも、かなり高いクオリティで、簡単かつ気軽にあなただけの音声合成モデルを作成可能です!デモ動画はこちらで公開されています。

GPT-SoVITSのデモ動画


GPT-SoVITSの主な特徴

GPT-SoVITSには以下のような特徴があります。

  • ゼロショットTTSによる即時のテキスト音声変換: 5秒間のボーカルサンプルを入力し、即時のテキストから音声への変換が可能

  • フューショットTTSでの声の類似性とリアリズムの向上: わずか1分のトレーニングデータでモデルを微調整し、声の類似性とリアリズムを向上

  • 多言語対応のクロスリンガルサポート: トレーニングデータセットとは異なる言語での推論をサポートし、現在は英語、日本語、中国語に対応

  • 音声データセット作成に便利なWebUIツール: 統合されたツールには声の伴奏分離、自動トレーニングセットセグメンテーション、中国語ASR、テキストラベリングが含まれており、トレーニングデータセットやGPT/SoVITSモデルの作成をサポート

Windows版GPT-SoVITSのインストール手順

Windowsユーザーの方は、以下のリンクから全部がバンドルされた圧縮ファイルがダウンロードできるので、そちらの利用がおすすめです。

ここから先は

2,210字 / 15画像

🔰初心者でも『note記事・動画・質疑応答』の3点で最新のAI情報がわかります。 あいラボ (A…

🎈あいラボ(動画 見放題プラン)新規募集につき特別価格✨

¥780 / 月
初月無料 募集終了

🎈葉加瀬のAI研究室 ~あいラボ~ 記事/動画/質問プラン

¥2,599 / 月
あと3人募集中

この記事が参加している募集

この記事が気に入ったらサポートをしてみませんか?