しゃけあた雑記

2023年7月17日 20:15

今回投稿した動画ではso-vits-svc 4.0でいろんなキャラに歌わせているわけですが、個別でも聞けるようにしたいなと思ったので、そのための場です（スマホとかの人はWi-Fi環境推奨）。
ついでに、制作裏話やら感想やらを書きなめまわしています。

雑記というよりも「雑に記したもの」なので読みにくくなってますが、
ゆるしてヒヤシンス

映像

別に映像で語るほどのことはありませんが、せっかくなのでなんか書いておきます。でも、書いたらこんな風に作りたかったけど作れなかったみたいな話になった。

構成

元が映像MAD風なので、映像もそれに似せた形にしたいと思っていました。

頭の中で作った段階では、
　Ⅰ. 初めのAメロ～サビは、シャケ素材のみ
　Ⅱ. 2つ目のAメロ～サビは、ゆっこメイン
　Ⅲ. 「標識は～」は、何か歌詞にあったシーン
　Ⅳ. 3つ目のサビは、シャケMAD総集編かシャケがあたるコラ映像
　Ⅴ. 終盤の大サビは、日常の事故シーン
　Ⅵ. 早口のセリフは、「～不幸中の幸いって」
　Ⅶ. 終わりは、なんか盛大な感じでシャケが降る映像
という感じで作ろうと思っていました。（Aメロとかサビとかの使い方あってるかな？）

結果、Ⅳ、Ⅶがあまり思い通りにいっていない感じです。
雑記なので、恥を恐れずに言い訳なんかも書きます。といっても理由は本編映像で満足したからです。

Ⅳは、シャケMAD総集編にすると、前半がほぼ本編映像だから雰囲気が台無しななるかなという点と、最近MAD総集編みたいな映像は若干数見かけるという点からやめました。
シャケがあたるコラ映像はうまく作れば雰囲気も壊さずに作れたかもしれませんが、「今でもそれなりに時間かけてるのにこのペースだと鮭の日(11月11日)投稿になりそう」と思ってやめました。作品的には投稿日もこだわった方が良さそうですが、気持ち的に早く投稿したかった。

ⅦもⅣと同様の理由です。宇宙人で使えそうなシーンがあったら入れようと思ってそのためにゲームも買っていたんですけどね。

映像MAD

今まで作った作品は、他の１つの素材をメインとしたものでしたので、今回の動画のために素材収集から始めました。
映像に関して言えば、素材収集でめっちゃミスりました。画質気にする人にはバレそう。小窓で見てください。低速で再生しないでください。

歌詞

歌詞は、元動画のぴょんぴょん跳ねる煙の動きをやりたくて歌詞を表示しました。
日本語だと横方向にはねる間隔が一定でつまらないので英語の歌詞にしました。でも、英語は自信ありません。
A piece of salmon か Salmons か、Kokeshi dolls か Kokeshies か、Akabeko toys か Akabekos か、どっちにすべきでしたでしょうか。
ともあれ、添削はお手柔らかにお願いします。

歌詞自体は歌っている日本語も元の歌詞でもそれなりに合う気がしたので、ほとんど変えていません。
歌詞改変が少なすぎるのは少々アゲインストかもしれませんが、その分映像が合えば許容範囲に収まるかなと。

映像の中では、この歌詞の上を跳ねるやつが一番時間かかってます（その割にずれてるところありそう）。一跳ね一跳ね設定してますので。もっと効率のいい方法があったかもしれませんが、思いつきませんでした。

時間がかかったとはいえ、ラジオ系とか聴きながら進められる作業だったので、そんなに苦ではなかったかもしれない。そんなわけあるか。
聴きながら作業できる間は、日常のオーディオコメンタリーとか聴いてました。

映像あとがき

音声と合わせてみると音MAD感がなくなった。
音MADとして投稿したかったからちょっと悲しい。
YTPMVにすれば解決できたろうけど、作ったとしても結局原曲使う方が良いかもしれないし、この作品に関してはこれでよいかなと。

音MADじゃないとか、AIに頼るなとか言う人は、
頭をヒヤシンス

仮に音MADでないとするなら、半映像MADみたいなところかな。

音声

ここまでなんか書いとけば読者数も減るかと思うので、
そろそろ本題

の

導入

です。

主な使用ソフト

一応、ソフト紹介です。
ここは、他にも書いている人がいる部分、もしくは似た内容が既にあると思いますので、読み飛ばしてください。

歌声変換: so-vits-svc 4.0
BGM除去: Ultimate Vocal Remover
素材整理: Pythonプログラム(Whisper使用)
音声・映像編集: REAPER
字幕等の追加: AviUtl

歌声変換AIは、sovitsの他にRVCやDiff-SVCが話題になっていたので、この中から選びました。
RVCは、この中では一番使いやすいツールでしたが、あまりキャラっぽさが残らないように感じたのでやめました。(AIというよりフィルタ処理っぽくない？)
Diff-SVCはノイズとかの影響を受けやすいみたいなレビューが散見されたので、sovitsを先に使いました。結果、sovitsで満足したので、Diff-SVCは使っていません。

Ultimate Vocal Removerは、どのパラメータがいいのかわかりませんでしたが、Kim Vocal 2のモデルを使い、他はだいたいデフォルトのパラメータでボーカル抽出しました。モデルは、なんか名前にVocalって入ってる方が性能いいかなと思って。
感覚的に95%以上は満足いくレベルの抽出でした。
叫びすぎてて普通の発話と違いすぎるとか、人が声帯を震わせて真似られそうな音とかは失敗しやすい印象です。もしかしたらそういうのもモデルの変更とかパラメータ調整とかで改善したかもしれませんが。

Pythonプログラムはこちらからお借りしました。
https://ytpmv.info/whisper-support-scripts/
（こういうツールの紹介・公開ありがとうございます。一部、勝手に書き換えて使っております。）
Whisperは無音が苦手なようで、動画・音声のはじめが無音だと検出時間がずれます。途中に長めの無音がある場合もずれます。BGMを消すと結構な尺で無音になることもあります。なので、一話あたり、再生直後に発話されるように、6分割くらい（基本は、OP前、CM前2つ、CM後2つ、ED後）にして、Whisperを適用しています。また、音声の検出精度も微妙に使いにくく、検出してくれない、もしくは、検出時間がズレることがたまにあります。なので、前後2.5秒くらい余分に切り出し、学習に使う場合は別途編集という形にしています。
このプログラムを使っていたのは2023年5月末頃ですが、将来的にもしくは現時点でも精度が上がっているかもしれません。それ以外にも上記のような課題であれば、無音区間の除去をするとかプログラムを凝れば検出精度も上げられたろうけど、そこまでやる気はありませんでした。納得いくものにしようとしたら、結構時間かかるだろうし。

こちらのプログラムについて、他の人が使うことはあまり考慮していませんが、共有しておきます。
https://drive.google.com/drive/folders/1Nx-o3YVBDKd11XwmAVpPepHTGJbt4WId?usp=sharing
（元のライセンス的に改変・再配布等OKかと思いましたが、大丈夫ですよね．．．ここで共有するものもライセンスを気にした方がいいだろうから、元のライセンスに準ずることとします）
数十行程度のプログラムなのでPythonをそれなりに触ったことのある人なら読めると思います。プログラム等に慣れていない人は触らないでくださいという意味です。例外処理とかあまり考慮していないので。
一応、処理の流れとしては、
標準入力の-iオプションで指定した音声または動画ファイルに対して、
Whisperを適用して、
全ての文字起こしした位置+前後2.5秒をffmpegで切り出す
という感じです。

REAPERは、映像編集にはほとんど使ったことがありませんでしたが、PCを新調してプレビューを見やすくなったので使ってみました。音声波形と比較しながら作りやすいですが、フレーム単位の調整やエンコードの勝手が思い通りにいきにくかったです。機能豊富だから何か設定する方法はあるかもしれないなと思いつつも、そこまでは調べませんでした。
VSTは、Zero Crossing Maximizerというマキシマイザーのみ使っています。他のVSTも過去試してみましたが、違いがわかりにくいというか、違いがわかってもアリかナシかどっちがいいかわからないというか、いやむしろこの隠し味が噛めば噛むほど相当不味くしているというか、ってなってあまり使っていません。私のVSTセンスはゼロでした。結果、音割れ抑えれたらなんでもいいやってなってマキシマイザーのみ使っています。
長文が続いたので、画像を張り付けるためにREAPERの編集画面紹介です。5割以上ゴミトラックです。歌声変換の素材収集とは別ですが、動画に使う素材の選定をREAPER上でしてましたので。

AviUtlは歌詞を表示する用です。
ちなみに、AviUtlも使用レイヤーの5割以上ゴミレイヤーです。ゴミレイヤーには編集中の確認に使うものもあれば、単に仮の完成品を見たくて追加しているものもあります。

素材収集

歌声変換用の各キャラ素材を集めるために、全話からボーカル抽出して、Whisperで簡単に整理しました。でも、完成品では主にキャラソンから厳選したデータでそれなりのクオリティになりましたし、データが少なくてもそれなりのクオリティになりますので、全話は使っていなかったと思います。

キャラソンから素材収集する場合は、特にキャラっぽいと思ったところだけをピックアップしました。
キャラっぽさが物足りないところとか
BGMを消せていないところとか
コーラスの入っているところとか
複数のキャラが重なっているところとか
そのあたりを聞いて省いて、5～15秒くらいに分割して、という感じで選定しました。

例えば、ゆっこ Ver.1の場合はこんな感じです。これを適度(?)な長さに分割しています。(音量注意かも)

キャラソンだけでうまくいかない場合はアニメ本編のセリフを少し追加し、気に入らなければ間引いています。
独り言とか心の中の声とか小さい声量の声が多いと、変換後もおとなしめの声になりがちのようですので、そういう部分を間引いたりしています。

変換前の歌声は身近にいらっしゃったカラオケの上手い人に依頼しました。了承いただいた方には別途お礼し続けます。
ビブラートとか歌い方が違ったり、という感じで4パターンぐらい提供いただき、
音外しているところもあるらしいですが、合唱にするとそれはそれでそれっぽい？ので、音程等は変更せず、タイミングのみ必要に応じて調整しています。

その4パターンを後に書いているゆっこ Ver. 3で変換するとこんな感じです。(音量注意かも)
ビブラートありは不自然かなと思ってあまり使っていません。
歌声変換でうまく発音できていないのではなく、元の歌声の時点で発音をごまかしている部分もあります。

キャラ別の歌声

ここから本題です。（音源を再生するときは音量注意かも）

・初めの部分(0:03くらい)
・サビ(0:28くらい)
・「標識～」(1:52くらい)
・最後(2:57くらい)
を聞き比べると、上手く学習できているかどうかみたいなのがわかりやすいかもしれません。

あと、1:05くらいの「幸運の女神は～」のところが全キャラ好きです。「だーかーらー」のところです。

ゆっこ　Ver. 1

Ver. 1はキャラソンのみで学習しました。
それっぽい歌声ですが、初めにソロパートを入れたかったので、もっと自然であってほしい。
でも、やっぱり所々それっぽい。

変換前の歌で、歌い方をゆっこっぽくする(？)とかでもいい感じになるかもしれない。

ゆっこ　Ver. 2

Ver. 1にセリフを追加して学習しました。
キャラソンとかの歌声のみで集めた場合、計2分ぐらいになったので、その倍以上収集しました。

本編の1〜4話ぐらいから収集しましたが、結構独り言のシーンが多いからかおとなしめの声になりました。
あと、音量も小さくなりました。

セリフを集めてて思いましたが、ゆっこの声のバリエーション豊富過ぎない？

ゆっこ　Ver. 3

さらにセリフを追加しました。
あと、独り言のシーンとか小さい声のシーンをいくつか減らしました。

うん、ゆっこっぽい。（ラブ的）

あとはVer. 1, 2も使えば形になるかなと思ったので、ここでバージョンアップ終了です。

ちゃんみお

ちゃんみおはキャラソンのみです。

少ないデータながら完成度が高い。

ちゃんみお（駄美声） Ver. 1

途中から駄美声パートも入れたかったので、叫ぶシーンだけを集めたパターンです。
1つ目は、学習し始めです。駄美声はノイズっぽくなっていて上手く学習できるのか？という感じです。
2つ目が、1夜明けるまで学習した結果です。これはこれでいいですが、所々思い通りにはいきませんでした。

もしかしたら、叫び叩きつけるように歌えばいい感じになるかもしれませんが、そうなると歌う人の技術というか負担が大きくなるのでパス。

このあたり、AIボカロは、本物の声優に劣る部分であり、
暴歌ロイド面では音MADに劣るかもしれない。

ちゃんみお（駄美声） Ver. 2

子音なんて発音できなくてもいいというつもりで、～2秒の叫び声を収集しました。

AIボカロで求めるものではないと思いますが、他の駄美声MADのような、MADならではって感じがないです。
う段の長音とかは「ランデヴー」のヴーみたいになってほしかったですが、そうはいきませんでした。
とはいえ、最後の部分の「しゃけだああああ」良くない？

麻衣ちゃん

麻衣ちゃんはキャラソンのみです（というか、あとのメインキャラは全員キャラソンのみです）。
ハスキーな声もここまでできるの素直にすごい。

最後の部分は声が出てない感。
でもこの声で声はってる感じって、イメージわかないから
これくらいが適切かもしれない。

はかせ

はかせもキャラソンのみです。
ちゃんとはかせの声だが、キャラソンとかと比較すると
子供っぽさがなくなってるところもある？（舌っ足らずな感じがない？そうでもないかも？）

あとニャーみたいな猫の声が入ってる部分省かずに学習させたら
ブレスのところとかで変な音が入ってしまった。
学習データの選定はやはり大事。

（ニャーの例）

なの

なのもキャラソンのみです。
なのだけに限りませんが、キャラソン程度の学習データ量だからか、子音がうまく発音できていないところがあります。
なのの場合は、しゃけがさけになってたりします。

最後のサビは「あ」か「お」か微妙な発音になっていたり。
でも、「あ」と「お」は周波数特性が似てるみたいなそんな説もあったと思うので、歌うときの発音で直る可能性も無きにしも非ず。
そういう部分は、数パターンの歌を用意しているので、別パターンだと上手くいくこともあります。

阪本さん

阪本さんもキャラソンのみです。

男声で他のキャラとは声の高さが違うので、
合唱ではかなり音量を絞りました。

2:58くらいで「しゃけだー」が「食堂」になっていて、最後の部分は鬼門みたいです。
声を張っている場面が収集データで見つからないと発音も変になる印象です。

他のキャラ

最後のサビでこの辺りの声も重ねていますが、おそらく聞き分け不可能じゃないかなと思います。
なので、高崎先生以外はそこまでデータの選定をしていません。キャラソンは使っていません。最後のサビ以外がうまくいっているかどうかはほとんど確認していません。

以下は、何かキャラが増えたことに気づけたなら何のキャラが増えたかの答え合わせだと思ってください。

◆みさと

ここでのキャラはどんな声になるかイメージが沸いていないまま作成してますが、結構いい感じになってるのではないでしょうか。
音声と関係ない話、みさとの発砲シーンとかMAD映えしそうなので、映像で入れたい気持ちはありましたが、あれは事故というよりも事件ですかね。

◆みほし

他のキャラ枠では、みほしの声が一番好きかもしれない。

◆中村先生

どんな声になるか想像できてませんでしたが、
なるほど。

◆フェっちゃん

どんな声になるかイメージが沸かないまま作ってるものが多い中、これはまあまあイメージ通りな気がする。
フェっちゃんっぽいなあ。

◆ウェボシー

歌わせると不自然になるかもと思ってましたが、いい感じではないでしょうか。
事故の歌を歌うウェボシー、パンクしてんじゃん（？）

◆高崎先生

男声なので、ゴードンパート要員です。
阪本さんも男声だけど、ちっちゃくて弱そうだから向いてないと思いました。男キャラの中では、高崎先生が一番ゴードンっぽいかなと。
このパートはあった方がイナフかと思いましたが、どっちの方がよかったのかな。

この声では「ノーフューチャー」とか叫んでる系は省いて学習させています。そういう声を含めて学習させると声がガラガラな感じが目立って、他の声と重ねるとノイズにしか聞こえない感じになりましたので。適切なデータの選定と十分な学習時間があれば、いい感じの声になったかもしれませんが。

音声あとがき

もっと他に書くつもりだったことあった気がするし、ここから読みやすいようにまとめたいけど、結構時間かかりそう。
もうなんか、公開してから気が向いたときに編集すればいっか。
読まない人はちゃんと読み飛ばすでしょう。

まとめると、
昔思いついたものを、今ある技術を使って、そのとき思ってた以上のクオリティで見れたので、うれしかったです。

最後に

今後の投稿作品

しばらく日常キャラではAIボカロの作品を投稿する予定はありません。
色々あってほしい組み合わせとかはありますが、あまり量産するとキャラが歌う系の作品の価値が下がるような気がしますし、それ以上に作りたい作品もありますので。
まあ、投稿頻度が低いので、そんな話だれも気にしませんね。

日常は、いろいろMADが出ていますが、ヘルベチカスタンダードとかフェイ王国あたりが供給不足すぎるので、次作るならそのあたりにしたいかな。
たぶん来世とかになります。

以上です。

最後まで読んでいただき、ありがとうございます。
ここまでたどり着くのは、さぞ辛かったろうに。

noteの推奨文字数は～3,000文字という話もあるみたいですが、この記事はその倍以上の文字数があるみたいです。
ゆるしてクンサイ