見出し画像

自然な別人の声になるSeiren Voice(AIボイスチェンジャー)

クオリティ重視のボイチェン

まず聞いて欲しい。

これは、誰の声でも100人の声に変えられる声変換システム(Dwango Media Village)より公開されたSeiren Voice(AIボイスチェンジャー)を使用して変換したものだ。

ものすっっごい自然な別人の声になる。元が自分の声とは思えない。

ボイチェンというとリアルタイム変換が今は主流で、リアルタイム変換だとどうしてもクオリティを犠牲にする点から、品質重視のボイチェンを目指して製作されているそうだ。

実際自分でやってみると、確かに肯ける変換精度。もはや同じセリフを他人が喋ってるみたいな感覚。

Serien Voiceの使い方

変換1

使い方は簡単で、まず自分の声を録音(今は7秒前後までくらいまで)する。

その後、テキストで録音した声を文字で入力。日本語の場合、テキスト入力に漢字や英文など使わず、ひらがなかカタカナを使うことが推奨。句読点で文も区切ればより良い。

次に声選択。自由選択もできるが、迷ったらプリセットかランダムでも十分変換の幅が広く楽しめる。

最後に変換ボタンを押して変換を待つ。3秒録音で30秒、5秒録音だと60秒ほど時間がかかる。

変換完了したらmp4形式で声選択で選んだ全ての声が収録されたものができる。これはダウンロード可能。

歌声でのボイチェン

変換の癖がでやすい歌声でも試しに(曲はペンギンリサーチ「HATENA」)。

歌声でここまで自然に声変わるのか…と感嘆。

変換

テキストはこんな感じに区切った。この区切り方も現在のバージョンでは重要なかんじ。

収録動画向け

非リアルタイム向けなので収録動画に使う想定での機能。現在はデモ版だが正式にリリースされるとしたらテキスト入力なしの録音だけでokになるとより使いやすそうだ。

もう一つ懸念は、最近は動画もLive配信が主流になっているので少々品質を落としつつライブ変換対応というのも世の中の方向性としてはありだと感じる。

アトリエ猫柳へのサポートは今後の制作活動の資金に充てられます。お気に召しいていただけたらサポートの程、宜しくお願い致します!