![見出し画像](https://assets.st-note.com/production/uploads/images/68354156/rectangle_large_type_2_6d89f5b8efe147c96644dbfa34e35e2b.png?width=800)
AI可不ちゃんでゲーム実況した話
こんばんわ、いぬいぬです!
5億年ぶりにゲーム実況動画をだしました!
実況してくれるのはなんと~~ソングボイスの可不ちゃんです!
リスペクト先
調声どうやってるの?
してません!
そんな神技術は私にないです!
いちおう、語尾の「ですます」だけちょっと手で調声してますけど、基本ベタです。1日で動画作ったので…。
やろうと思えばもう少しノイズっぽいところ削るとか母音無声化とか「ん」のつかいわけとか日本語の色々もできるとおもいます…。
じゃあどうやってしゃべらせるのかというと自作ツールでやってます。
![](https://assets.st-note.com/img/1640264275184-NeD3YZWxeK.png?width=800)
![](https://assets.st-note.com/img/1640262647835-TT6Z08D91C.png?width=800)
TMGとPITはツールで自動で入力してます。VOLやALPも多分できるけど、まだ未実装です(VOLはCeVIO AI任せ、ALPは可不ちゃんだとあまり意味ないので…)。
あ!すするところは自分で調声しました!!!!
~可不にカレーうどん啜らせる方法~
— しゃいと@カレーうどんP (@shaito_otiahs) November 27, 2021
・「ず」を1拍くらいの長さで入力する
・TMGでz:u=10:0にする(子音部分を全部後ろに伸ばす)
・VOLでエディタを最大まで拡大して細かいジグザグを書き込む
・途中で啜るの辞めちゃうのでそのタイミングで一気にVOLを0にする
・完成
(音高とピッチは気にしなくてOK) pic.twitter.com/sFLfpTjP3W
まさか参考になるなんて…
トークロイド:しゃべるCeVIOソング的なお話
ここからちょっと難しい話になります!
ノートを無視しちゃうぞ☆
ボカロとかで喋ってる風にするのは、ふつーは1音節毎にノート割り当てて、五線譜上に割り当てます。
これがそもそも問題なんじゃないかなーといぬいぬは考えました!
しゃべるときのひとつひとつの音は長さがバッラバラ
ピッチの線も、グッニャグニャ
楽譜上のノートってざっくりの目安でしかないんですよね。歌うときもそうですけど、ノートぴったりに人間は発声してません!
絶対音感とかを駆使してかなり細かく分割して打ち込めば近づけられますけど、CeVIOとはめちゃくちゃ相性が悪い!
CeVIO初心者向けに説明する「母音分割は使わないで!」に、
思いっきりひっかかります!
そこでいぬいぬは考えました。
CeVIOは1つのノートにいくつも音を割り当てられます。細かいタイミングはTMG、音の細かいピッチのブレはPITで調声できます。
文節ごとに1ノートに詰め込んじゃって、TMGとPITでしゃべりを再現すればいいんじゃね?
![](https://assets.st-note.com/img/1640266431369-Fs8JX1oPpU.png?width=800)
文節ごとにノートを区切っているので、途中で変な区切りが入ったり、息継ぎしたりすることなく、ちゃんと間が空いたところで自動で息継ぎしてくれます(息継ぎ音はAIまかせ)。
まあこれCeVIO以外の歌声音声合成ソフトだと使えないアイディアですけどね…(近い原理のNEUTRINOでも破綻しちゃうはずです!)
日本語の発音のルール
後は日本語の発音のルールをしっかり割り当てていくこと。
コレは知識がないと難しいですが、ソングと違ってトークはかなり規則的に発音が変化するので、ちゃんとやらないと不自然な日本語になります。
特に「ん」と母音無声化は、可不ちゃんくらいの子の年の人の発音としては無いとおかしいです。
母音無声化は次の方法を試そうとしたんですが、上手く行かないパターンがあるので保留中(語末の母音無声化をこの方法でやると音が生成されません)。なので、たまに語尾の「ですます」がおかしくなります。
さっきの自作ツールはどこを変えればいいか教えてくれる機能があります。
![](https://assets.st-note.com/img/1640267019369-mzfzgyWsvV.png?width=800)
というかこっちが本命の機能ですね!
毎回歌詞入力のたびに「えーとココの発音は前がこうだからああなるな…」って考えるのが死ぬほどめんどかったので!
最近のカバー曲はこのツールで歌詞の音素入力を楽してます。
CeVIOに「直接音素をまとめて入力」する機能があったら、もっと楽になるんですけど!
あとは、今は教えてくれるだけですけど、出力もできるようになれば楽になりますね!今回の動画は時間なかったのでやってないですし、まあ、そのうち…。
たくさん作るのは苦行
いぬいぬはCeVIOソングはじっくり調声派ですが、CeVIOトークはほぼ無調声派です。具体的にはYMM4上で変えられるパラメータしか変えません。
なんで?
苦行だからさ!
しゃべくりスタイルなんでじっくり調声したら、いつまで経っても動画ができません。
トークロイド的なやつの問題は、大量のセリフを量産できないって問題があります。ゲーム実況とか鬼門です。
その点でこの動画↑すごすぎる…
CeVIOソングに自動化出来るAPIがあったり、自動化ができたり、だったらいいんですけどね…。無いのよ…。
![](https://assets.st-note.com/img/1640269043034-K78sWWGzmh.png)
一応、セリフはトラック名になるようにしているので、wav出力のときにそのままwavファイル名になるようにしてます。これをYMM4のカスタムボイスで監視すると、自動でタイムラインにセリフと音声が挿入されます。Aviutl+かんしくんとかでも同じですね。
ファイル名に使えない文字があると壊れちゃいますけど…。
![](https://assets.st-note.com/img/1640269211810-7sshsKfi1h.png)
CeVIOの機能で.labファイルも出力されるので、あいうえお口パクもまあ一応できます。
取り込んで書き出し、は完全に手動ですけど、とりあえずAPIがないトークソフトで作るときぐらいと同じぐらいまでは持っていけそうです。
最後に
めっちゃ久しぶりにゲーム実況chにも投稿したから、見てね!
追記
この自作ツールを公開してみました!
この記事が気に入ったらサポートをしてみませんか?