見出し画像

AIVtuberを作る#1

今、真のAIVtuberを作りたいと考えている
いろいろなプログラムやツールを組み合わせれば概ね作ることはできるようになったが、やはり魂が人間のVtuberと比べるといろいろと違和感を感じてしまう。

一番違和感を感じるのは言葉のイントネーションと感情による言葉の音程の高低や「えぇ~と」「うぅ~ん」「あっ」とかのつなぎ言葉がなかったりという部分に違和感を感じています。

イントネーションに関して、いろいろなTTSを使ったり、記事を読んだり、YouTubeを見たりしているのですが、どれもやはりイントネーションに違和感を感じてます。
日本語のイントネーションはすごく難しいですよね・・・
こちらのページにある「いいひとじゃない」との言葉、同じ言葉なのに「否定」「肯定」「反論」「称賛」でイントネーションが違うんですから・・・

感情による言葉の音程の高低に関しても、TTSで文章から感情を読み取り、声の高低で感情表現するものもあるのですが、違和感を感じてしまいます・・・。
「えぇ~と」「うぅ~ん」「あっ」とかのつなぎ言葉はLLMをファインチューニングすればなんとかなりそうな気もする。

難しい・・・



この記事が気に入ったらサポートをしてみませんか?