ElevenLabsで自分の声を学習させて音声スピーチを作成する
[読了目安: 3分]
こんにちは、ロボシンクの矢野哲平(@robothitnk_jp)です。この記事ではTTS(Text to Speech)について解説します。音声で聞きたい方はこちら👇
👨💻対象読者
AIを使って自分の声色に似せた音声を作成したい人
ElevenLabsを触ってみたい人
🎉記事を読むとできること
テキストからスピーチを作成できる(TTS)
自分のAI音声を作成できる
自分のAI音声を作成する場合はクレジットカードと学習用の音声が必要な点にご注意ください。
なお、基本的な利用は無料です。
ElevenLabs
音声系のAIスタートアップです。テキストからスピーチを作成したり、自分の声でAI音声を作成できます。
最近では録音した音声から環境音を除去する技術も発表しました。
(こんなに環境音が除去されるんか..)
ログイン
会員登録は無料で出来ます。Googleと連携も可能。サクッとログインしましょう。
料金
自分の声を使った音声の作成は$5からできます。$5のスタータープランではインスタントボイスという簡易な学習を試せます。
無料で試す
ElevenLabsは無料でも利用できます。無料の場合は用意されている声を利用します。
メニュー > Speechに移動。発話させたいテキストを入力して音声を選択します。
下部にあるGenerate Speechを押すと音声が生成されます。生成したスピーチはダウンロード可能です。
作成した音声👇
Instant Voice
(以降は課金後を想定しています)
メニュー > Voices > Add a new voice > Instant Voice Cloningを選択。
マイクに向かって話すか音声ファイルをアップロードします。環境音を含まないクリアな音声が好ましいとされています。
Record Audioを押すとマイクが起動します。30秒画面に向かって話しかけます。30秒分の台本がない方はこの記事を読み上げに活用してください。
(ポッドキャストでは1分と説明していました。謹んで訂正いたします。)
ちなみにサンプルは25本分アップロードできます。サンプルが多い方が音声の精度も上がります。
出来上がった音声がこちら👇
サンプル1本だと声質はあまり似ていませんね。
上位プランの学習
同じ手順で上位プラン($22)を試してみます。(初月は半額)
メニュー > Voices > Add a new voice > Professional Voice Cloningを選択。
以降の流れはほぼ同じです。異なる点は以下👇
アップロードする音声ファイルは3時間分が目安
テキスト読み上げによる本人確認がある
音声ファイルをアップロードして学習完了まで4時間くらい時間がかかりました。
そうして出来上がった音声がこちら👇
イントネーションが気になるものの声質はほぼ私です。
TTSは長い文章をスピーチ化すると、イントネーションがおかしくなったり破綻が多くなります。
破綻が多い場合はテキストを分割する
漢字の読み間違いがある場合は平仮名にする
色々と工夫していくとより精度が上がります。ぜひ参考にしてください✌️
XではAIの最新ニュースやプロンプト、活用アイデアを発信しています。フォローよろしくお願いします!(@robothink_jp)
この記事が気に入ったらサポートをしてみませんか?