自分よりうまい英語を喋るAIを試してみた - ElevenLabs

teatown

2024年4月13日 12:39

バイデン大統領のフェイク音声で話題のElevenLabsの音声モデルを試してみました。

ログインや使い方はすでに日本語で紹介しているページがあるので、それらをご覧いただくと良いでしょう。

自分の音声を録音して自分の音声モデルを作るには有料プランに入る必要があります。一番安いのが月$5のStarterプランで、最初の月だけ40%オフの$3となってます。

自分の声のモデルを作るには、以下のようにします。

左のバーにあるVoiceLabをクリックして出てきた画面で、Add Generative or Cloned Voiceをクリックし、次にInstant Voice Cloningをクリックします。するとダイアログ画面が出てきます。
Nameのところにその音声モデルの名前を設定します。
その下あたりにあるRecord Audioボタンを押すと、その場で自分の声を録音できます。私は、文数にして16くらいを事前に用意しておいて、その場で読み上げて複数の録音ファイルとしました。
ラベルとして、言語と性別と年代くらいを入れておくと良さそうです。例えば、keyのところにlanguage、valueのところにJapaneseという感じで入れます。
Descriptionに音声モデルの説明を入れます。
最後に一番下のAdd Voiceボタンを押す

少し経って自分の音声モデルが作成されます。

次に、出来上がった音声モデルのUseボタンを押すと、画面がText To Speechに変わるので、ここで、適当な文章を入れて右下のGenerate speechボタンを押すと、めでたく自分の声の読み上げが聞こえてきます。

実際日本語文章を幾つか試してみたのですが、残念ながらいまいちです。おそらく、日本語の言語モデルがまだ悪くて、かなりの単語が誤読状態になります。これはまだまだ実用には程遠い気がします。今後の改善を期待したいところです。

で、自分の音声モデルのまま、ここに英語の文書を入れたらどうなるんだろうと試してみました。いやー、びっくり！空いた口が塞がらないとはこのことでしょう。自分より流暢な英語が聞こえてくるではないですか！

最初英語のニュースの文章を幾つか試したところ、まるでニュースキャスターになったのかと思うくらいでした。（英語nativeではないのでそう聞こえるのだろうと思いますが。）さらにElevenLabsのCEOが書いた以下のサイトの文章を試したのですが、非常に流暢でNative Speakerになったかのようで衝撃を覚えました。（これにチューニングされているという可能性もあるかもしれませんが。）

ただ、その後、他のタイプの英語の文章を色々やってみると、そこまですごいわけではないケースももちろんありましたが、結論として、少なくとも自分でしゃべるよりは良さそうだと思いました。

原稿がある英語の文章を喋る機会があれば、このAIモデルにしゃべらせておけばいいんじゃないかと思いました。そのうち、原稿なくても、リアルタイムの音声翻訳に自分の音声モデルが組み込まれて、母国語でスピーチすると自分の声で翻訳して届くという世界になってそうですね。（おそらく、すでにスマホアプリとして作れると思います。）

使ってみて思ったのは、自分の声で聞こえてくるのはインパクトがとても大きいということです。有料プランに入ってもいい人は試してみると面白いと思います。もちろん、悪いことには使わないようにしましょう。

ElevenLabsのホームページ

この記事が気に入ったらサポートをしてみませんか？