GPTs-kunの為にElevenLabsで音声生成してみたよ

おたくのおとなり

2024年2月15日 22:45

ごあいさつ

年明けからがっつりGPTs沼にハマって、せっせと情報収集しているGPTs1年生です。こんにちは。
GPTsとhshsするために、転んでもただは起きないぞの精神で音声生成サービスを探しまくって見つけました。

ElevenLabs
GPTsも公開されています。

GPTsとしては、初期提供される5つから好きな声で読み上げてくれるようです。

GPTs「ElevenLabs Text To Speech」を使ってみた

まずは、Wakewordを投げかけてみます。

👩「Paste or type content you would like to convert to speech」

🤖Of course! Before we proceed, please let me know which voice you would like for your text-to-speech conversion:
1. JARVIS 🤖
2. A classic male narrator 👨‍🦰
3. A classic female narrator 👩
4. A female voice great for speeches and podcasts 👩‍🦱
5. A female voice great for children's stories 👱‍♀️

ElevenLabs Text To Speech

👩「4」

🤖Great choice! Please paste or type the content you would like to convert to speech using the female voice great for speeches and podcasts.

ElevenLabs Text To Speech

👩「こんにちは。みなさんGPTs推し活楽しんでいますか？」

読み上げて欲しいテキストを書き込みました。
APIと通信してもいいか？と確認されるので「OK」してあげます。

🤖eleven-labs-gpt-server-asrsubs.replit.appと通信しました
Your text has been successfully converted to speech. You can listen to it by following this link: Listen Here.

ElevenLabs Text To Speech

数秒待つと、音声を生成してくれました。

おーん。。ちょっと途中「？」なところもありましたがいい感じです！
音読して欲しいワードがあるときに手軽に使えて良さそうです。

が、これは序の口！
本丸はWebの方なのです！！
なぜなら？サンプル音声をアップして、音声生成できるからなのです！

というわけで、Web版へ乗り込むお

登録手順は、気合で乗り切ってください！その先にはパラダイスがあるから！！

Voices＞Createの先で、いくつか音声サンプルの作成パターンを選ぶことができます。2番目の Instant Voice Cloning が求めているパラダイスになります。
ただ、パラダイスに到達するのにはひとつ障壁があります。
無料アカウントでは、サンプリングデータから音声を生成できない…。
それじゃぁ意味がないんだよぉおお！
↓の画像は生き急いで既に課金済みなのですが、最初は非アクティブで選択ができません。

お？課金すっか？ってメッセージが出ていたので、秒でクリックして課金しました。
初月$1。翌月以降$5。
そんなもので欲望を満たせるなら、些細なものよ。。

念のため、他の選択肢ですが

Voice Design

サンプル音声をベースにカスタマイズできるやつです。これは無料でも使えます。

Instant Voice Cloning

パラダイス。Starter以上が使えます。要課金。
音声をアップロード or Webで録音したものをサンプルとして登録できます。

Your creative AI toolkit. Design entirely new synthetic voices from scratch. Clone your own voice or a voice you have a permission and rights to. Only you have access to the voices you create.

VoiceLabの説明文

ここにアップロードされたものは個人用に保存されるだけで、公開はされないようです。

Voice Library

いろんな人が作成した音声のライブラリ。

Create以上のプランの人は、自分の声をサンプリングしたり、Voice Desginでカスタマイズした音声サンプルを売ることができるようです。
Type of voice to createのメニューにあった「Professional Voice Cloming」がそうみたいですね。Payouts設定があり、Stripeの登録をすると道が開けるのでしょう。（そこまではやりませんでした）

Text to Speechで読み上げてみよう！

Settings

Eleven Multilingual v2 の箇所
- 音声ベースを選択します。英語以外の言語で話させたい時は、「Eleven Multilingual v2」か「Eleven Multilingual v1」を選択しましょう！
my voice の箇所
- サンプルにする音声を選択します。自作の音声も選択できますし、デフォルトで用意されている10種類近いものからも選択可能です。
Voice Settings
- 出力される音声のキーになる設定。デフォルト設定でうまく出力できない場合はいじってみましょう。
- Stability
  - 「安定性」を調整します。抑揚を抑えたい時は「More stable」に近づけ、感情表現豊かな抑揚のある音声にしたい時は、「More variable」に近づけます。
- Clarity + Similarity Enhacement
  - 「明瞭性」と、モデル音源との「類似性」の調整ができます。値が高いと雑音、音声の歪みなど不自然な音声特性が生じる可能性があります。生成した音声にノイズなどが発生した場合は、この項目の値を「Low」に近づけて再生成することが推奨されています。
- Style Exaggeration
  - サンプルテキストのスタイルに寄せるための設定ですが、Exaggeratedに寄せすぎると安定性が低下してしまうようです。必要がなければ「0」にすることを推奨されています。
- Speaker Boost
  - オリジナルのスピーカーとの類似性を高めるものです。しかし、この設定を使用すると、計算負荷がわずかに高くなり、レイテンシーが増加します。この設定によってもたらされる違いは、一般的にかなり微妙なものみたいです。
Total quota remaining
- 右下に表示されているカウントが残りの生成できる量です。どきどき。

色々細かくはこちらの公式ドキュメントをご活用ください。

ここまででも十分だな！と思う方は是非、ElevenLabsは用法・用量を守って正しく使いましょう！
ちなみに、APIも用意されているので、OpenAIとごにょごにょすればElevenLabsの音声を活用してお話もできそうですよ。やっほー！

あまりにも精度のいいサンプルもできてしまったので、この先は有料としてひっそり公開します。
悪用、ダメ、絶対。と思うと同時に、音声生成の可能性と怖さを感じましたね。。
少しの間、無料で公開しようと思います。 (と言いながら忘れてそのままにする、にこのカシオミニを賭けてもいい By漆原教授）

Text to Speech だけでは、読み上げがままならなかったので、Speech to Speech（いわゆる音声書き換え）も試しましたよ。
と言うわけで、気になる方は続きをどうぞ。

まずは、自分の声をサンプルにして Text to Speech してみました。
おーん。。近いような。遠いような。

Speech to Speechで読み上げてみよう！

もう少しカスタマイズしてみたかったのですが、いい感じの読み上げ方にならない。。そこで気づいた Speech to Speech (以下S2S)のタブ。（グレーアウトしてて最初気づきませんでした）

画面を見て察し。あーこれは、読み上げた声をサンプルの声でトレースしてくれるやつだ。。そして、案の定でした。
Audioの箇所で「Record Audio」をして、読んだ声にサンプルを当ててみたら、抑揚そのままで読み上げてくれました。

よもや、よもやだぞ…？と言うことで、自分の声をsampleの音声で恐る恐るトレースさせたのがこちら。

この精度は、ダメだ。レベルが高すぎる…。
ちょっと横に本家の画像を貼るのを躊躇するレベルの精度なので、DALL-Eさんにイラスト作成をお願いしました。

S2Sは元の抑揚に乗っかって置き換わるので、演技力が必要になります。
マイクの前でみんな頑張ろう💪

声🐷にとっては本家こそ至高！！です。
だけどどうでしょう…。
可能性を感じられた二次元ラバーな方もいるのではないでしょうか？

くれぐれも…
用法・用量を守って正しく使いましょう！悪用、ダメ、絶対！
用法・用量を守って正しく使いましょう！悪用、ダメ、絶対！
（大事なことなので2回言いました）

押すなよ、絶対押すなよ？のパターンじゃなく、マジダメですね。
お取り扱いには十分お気をつけください。

それでは素敵なGPTsライフをお過ごしください。
捗り過ぎて寝不足です🫠

えっ！！そんな、そんなそんなそ…！！！いいんですかぁ〜？ありがとうございます🥰