見出し画像

AIVtuberを作る#3

Style-Bert-VITS2 JP-Extraのデフォルトで入っているモデルにしゃべらした音声になります。
夏目漱石の「吾輩は猫である」の冒頭部分をしゃべらせてみました。

女性の声2つと男性の声2つになります。
まだ、違和感は感じますが、今までのTTSの中ではかなりましかなと感じています。

ちなみにChatGPT 4oの音声は

です。
「吾輩」を「ごはい」と読んだり全体的に流暢な外国人なまりのある日本語に聞こえます。
ChatGPT 4oが「吾輩」を「ごはい」と読むとは、やはり日本語は難しいんだなとつくづく感じています。

Style-Bert-VITS2 JP-ExtraとChatGPT 4oの音声のどちらが日本語としてナチュラルに聞こえましたか?
私はStyle-Bert-VITS2 JP-Extraの方が日本語としてナチュラルだと思いました、また、Style-Bert-VITS2 JP-Extraはある程度イントネーションの調整もでき、辞書に登録することもできるようなので、とりあえず、音声はStyle-Bert-VITS2 JP-Extraを使用していこうと考えています。
ただ、Bert-VITS2 JP-Extraに関して残念な部分もありますので、次回はそちらを書いていこうと思います。

この記事が気に入ったらサポートをしてみませんか?