GPTs-kunの為にElevenLabsで音声生成してみたよ
ごあいさつ
年明けからがっつりGPTs沼にハマって、せっせと情報収集しているGPTs1年生です。こんにちは。
GPTsとhshsするために、転んでもただは起きないぞの精神で音声生成サービスを探しまくって見つけました。
ElevenLabs
GPTsも公開されています。
GPTsとしては、初期提供される5つから好きな声で読み上げてくれるようです。
GPTs「ElevenLabs Text To Speech」を使ってみた
まずは、Wakewordを投げかけてみます。
👩「Paste or type content you would like to convert to speech」
👩「4」
👩「こんにちは。みなさんGPTs推し活楽しんでいますか?」
読み上げて欲しいテキストを書き込みました。
APIと通信してもいいか?と確認されるので「OK」してあげます。
数秒待つと、音声を生成してくれました。
おーん。。ちょっと途中「?」なところもありましたがいい感じです!
音読して欲しいワードがあるときに手軽に使えて良さそうです。
が、これは序の口!
本丸はWebの方なのです!!
なぜなら?サンプル音声をアップして、音声生成できるからなのです!
というわけで、Web版へ乗り込むお
登録手順は、気合で乗り切ってください!その先にはパラダイスがあるから!!
Voices>Createの先で、いくつか音声サンプルの作成パターンを選ぶことができます。2番目の Instant Voice Cloning が求めているパラダイスになります。
ただ、パラダイスに到達するのにはひとつ障壁があります。
無料アカウントでは、サンプリングデータから音声を生成できない…。
それじゃぁ意味がないんだよぉおお!
↓の画像は生き急いで既に課金済みなのですが、最初は非アクティブで選択ができません。
お?課金すっか?ってメッセージが出ていたので、秒でクリックして課金しました。
初月$1。翌月以降$5。
そんなもので欲望を満たせるなら、些細なものよ。。
念のため、他の選択肢ですが
Voice Design
サンプル音声をベースにカスタマイズできるやつです。これは無料でも使えます。
Instant Voice Cloning
パラダイス。Starter以上が使えます。要課金。
音声をアップロード or Webで録音したものをサンプルとして登録できます。
ここにアップロードされたものは個人用に保存されるだけで、公開はされないようです。
Voice Library
いろんな人が作成した音声のライブラリ。
Create以上のプランの人は、自分の声をサンプリングしたり、Voice Desginでカスタマイズした音声サンプルを売ることができるようです。
Type of voice to createのメニューにあった「Professional Voice Cloming」がそうみたいですね。Payouts設定があり、Stripeの登録をすると道が開けるのでしょう。(そこまではやりませんでした)
Text to Speechで読み上げてみよう!
Settings
Eleven Multilingual v2 の箇所
音声ベースを選択します。英語以外の言語で話させたい時は、「Eleven Multilingual v2」か「Eleven Multilingual v1」を選択しましょう!
my voice の箇所
サンプルにする音声を選択します。自作の音声も選択できますし、デフォルトで用意されている10種類近いものからも選択可能です。
Voice Settings
出力される音声のキーになる設定。デフォルト設定でうまく出力できない場合はいじってみましょう。
Stability
「安定性」を調整します。抑揚を抑えたい時は「More stable」に近づけ、感情表現豊かな抑揚のある音声にしたい時は、「More variable」に近づけます。
Clarity + Similarity Enhacement
「明瞭性」と、モデル音源との「類似性」の調整ができます。値が高いと雑音、音声の歪みなど不自然な音声特性が生じる可能性があります。生成した音声にノイズなどが発生した場合は、この項目の値を「Low」に近づけて再生成することが推奨されています。
Style Exaggeration
サンプルテキストのスタイルに寄せるための設定ですが、Exaggeratedに寄せすぎると安定性が低下してしまうようです。必要がなければ「0」にすることを推奨されています。
Speaker Boost
オリジナルのスピーカーとの類似性を高めるものです。しかし、この設定を使用すると、計算負荷がわずかに高くなり、レイテンシーが増加します。この設定によってもたらされる違いは、一般的にかなり微妙なものみたいです。
Total quota remaining
右下に表示されているカウントが残りの生成できる量です。どきどき。
色々細かくはこちらの公式ドキュメントをご活用ください。
ここまででも十分だな!と思う方は是非、ElevenLabsは用法・用量を守って正しく使いましょう!
ちなみに、APIも用意されているので、OpenAIとごにょごにょすればElevenLabsの音声を活用してお話もできそうですよ。やっほー!
あまりにも精度のいいサンプルもできてしまったので、この先は有料としてひっそり公開します。少しの間、無料で公開しようと思います。 (と言いながら忘れてそのままにする、にこのカシオミニを賭けてもいい By漆原教授)
悪用、ダメ、絶対。と思うと同時に、音声生成の可能性と怖さを感じましたね。。
Text to Speech だけでは、読み上げがままならなかったので、Speech to Speech(いわゆる音声書き換え)も試しましたよ。
と言うわけで、気になる方は続きをどうぞ。
まずは、自分の声をサンプルにして Text to Speech してみました。
おーん。。近いような。遠いような。
Speech to Speechで読み上げてみよう!
もう少しカスタマイズしてみたかったのですが、いい感じの読み上げ方にならない。。そこで気づいた Speech to Speech (以下S2S)のタブ。(グレーアウトしてて最初気づきませんでした)
画面を見て察し。あーこれは、読み上げた声をサンプルの声でトレースしてくれるやつだ。。そして、案の定でした。
Audioの箇所で「Record Audio」をして、読んだ声にサンプルを当ててみたら、抑揚そのままで読み上げてくれました。
よもや、よもやだぞ…?と言うことで、自分の声をsampleの音声で恐る恐るトレースさせたのがこちら。
この精度は、ダメだ。レベルが高すぎる…。
ちょっと横に本家の画像を貼るのを躊躇するレベルの精度なので、DALL-Eさんにイラスト作成をお願いしました。
S2Sは元の抑揚に乗っかって置き換わるので、演技力が必要になります。
マイクの前でみんな頑張ろう💪
声🐷にとっては本家こそ至高!!です。
だけどどうでしょう…。
可能性を感じられた二次元ラバーな方もいるのではないでしょうか?
くれぐれも…
用法・用量を守って正しく使いましょう!悪用、ダメ、絶対!
用法・用量を守って正しく使いましょう!悪用、ダメ、絶対!
(大事なことなので2回言いました)
押すなよ、絶対押すなよ?のパターンじゃなく、マジダメですね。
お取り扱いには十分お気をつけください。
それでは素敵なGPTsライフをお過ごしください。
捗り過ぎて寝不足です🫠
えっ!!そんな、そんなそんなそ…!!!いいんですかぁ〜?ありがとうございます🥰