見出し画像

黒塗り舞台宛書簡のお話(AIを用いた音MAD)

はじめまして、西條クロディーヌです。oui
https://twitter.com/Claudine99_mad

この記事を見ていると言う事はきっと「黒塗り舞台宛書簡」を見て頂いたのだと思います。
まだ見てない方は以下の方から是非見てください


この動画は最近一部で注目のSo-vits-svcというAIを使用した音MADということであまり他にやってる人も(多分)居らず、せっかくならと思い制作してみました。
元々アイデアはあったのですが人力ボーカロイドを作るのがとてつもなく苦手で後回しになっていたのをAI様の力で実現しました。

今回制作にあたりなありさんのお力をとても借りました本当にありがとうございます。


so-vits-svcとは?

みなさん気になってると思いますがso-vits-svcとは簡潔に言うと
AIを用いた声質変換です

変換したいキャラクター(人物)のボーカルデータをAIに学習させ声を変換させるといったものでそれが本当にすごいです。いやマジで

今回は少女☆歌劇レヴュースタァライトから大場ななさんの声を学習させて
自分の歌声を変換してまるで大場ななさんが歌っているようにしたって感じです。

/バナナイス♪\


詳しいやり方とかを書くと長くなってしまうんで割愛しますが私はまいまいさんとsyosyoさんの以下の記事を参考にローカルで環境を構築しました。

まいまいさんの方で紹介されているのはv3.0でsyosyoさんの方はv4.0なので多少やり方が違いますのでお気をつけください。(私はv4.0を使用しました。)

※現在学習済みモデルが直接ダウンロードできない様なのですが探すとそこら変に転がってました。探してみて!


このAIは先程も記載したのですが声を学習させて変換するもので必然的に学習元データ、いわゆるデータセットが必要になってきます。
このデータセットの質で完成度が段違いに変わってきます。

データセットとは変換したいキャラや人物の大量のボーカルデータです。
これを集めるのがこのAIで一番労力が必要で時間がかかります。
私の場合はアニメや曲からボーカルを抽出してそれを5~10秒に切り出しそれを184個用意しました。


最低100個ほど必要で500以上あれば上々だそうです。

そしてデータセット作りで一番気をつけて欲しいのがボーカルの質です。
自分は抽出したデータを使用したのですが使えないものもかなりありました。
例としては

  1. 抽出後も残るぐらいリバーブやディレイが深いもの

  2. コーラスが入っている

  3. 効果音と重なっている

  4. シンプルに音質が悪い

つまり純粋なボーカル以外の要素が入っているものは取り除きましょう
私的にはアニメから取ってくるのをおすすめします。


そして次に重要なのがどれだけ学習させるか、という点です。
このAIにはどれだけ学習させるかというパラメータで
epochstepというものがあります。

epochをconfigで設定し、AIが学習することでstep数が増えていき
どれくらい学習できたのかという目安になります。
今回私は1000epoch50000stepまで学習させました。


時間換算するとだいたい15時間くらいかかりました、私の環境が貧弱と言うのもありますがある程度の時間は覚悟しておいたほうがいいです、あと電気代。

この2つさえ注意しておけば多分大丈夫だと思います、いい素材を集めてたくさん学習させましょう!


制作にあたって

AIの話はこれくらいにして動画についての話をしていきます。
黒塗り世界宛書簡を初めて聞いたとき、なにこれスタァライトじゃん。
と思ったのがきっかけです。
冒頭にも記載しましたが元々作りたいとは考えていて、けど技術が追いつかないそんなときにso-vits-svcを見つけ制作に至りました。

歌詞改変

黒塗り世界宛書簡で特徴的な部分といえば黒塗りになっている歌詞です。
黒塗りにすることで考察の余地を与え聞く人をより世界観に潜り込ませるすごい手法だと思います。

そして今回大場ななさんに歌ってもらった訳ですが、大場ななさんを選んだ理由としてはスタァライトの中でも特異なキャラクターでこの曲の黒塗りの部分に大場ななさんが持っている様々な感情や思いを入れることで両作品をうまく融合させることができるのでは?と思ったからです。

そしてこの歌詞を改めて読み、蘇る、燃える、輝きなどと言ったスタァライトに置き換える所ができる所をポイントに歌詞改変をすることで世界観の統一、99回聖翔祭のスタァライト、そして99期生のみんなを愛する大場ななの様々な面を表現できたと思います。

音声

音声制作のワークフローとしては以下の様になっています。

  1. so-vits-svcの学習

  2. 改変した歌詞を自分で歌う

  3. ①に読み込ませ声質を変換

  4. ミックスとマスタリング

おおまかに分けてこんな感じです。
ほとんどAIにやってもらってるので自分でやった所としては2と4くらいです。

それぞれを解説していくと1はso-vits-svcなのでまあ飛ばすとしまして
問題は2です。
改変した歌詞を自分で歌い、それを変換するということなんですが
そこで壁にぶち当たりました、それが僕が男だという所です。
ただ声質を変換させるといっても
変換したい声、(今回は私の声)に多少影響されるようで
低い男性ボーカルにひっぱられて変換後の声も少し低くなってしまうという問題が発生しました。
試行錯誤した結果、声の出し方と歌い方を柔らかくして声の芯をぼかすことで変換後の違和感を減らすことができました。

そしてミックス・マスタリングですがここは普通にミックスしました、ただ変換後の音声にはどうしても機械音のようなノイズが部分部分で入ってしまいそこをイコライザーで削りました。

上で問題になった声が低くなる問題も完璧に解決できたというわけではなかったのでアドバイスをもらいイコライザーとマルチバンドコンプレッサーで高音域を持ち上げ、中低音域を削ることで綺麗に整えることができました。


本当に感謝です。ありがとうございます。

映像

映像ですがこれはほぼ本家さんの動画を丸パクリです。
AIでのボーカル作りがメインだったので手を抜いてます、ほんますいません。
使用ソフトはAfterEffectsです
歌詞部分はAdobeフォントからそれっぽいフォントを探してきて縦横比とカーニングを調整して作りました。
後半の規制音ラッシュ部分からは怪しい雰囲気に仕上げたくてアウターサイエンスのMVとかを参考にしました。



元の映像最後まで丸パクリってのは流石に寂しいかなと思いつつ、けどYTPMVではないしと言った感じでこうなりました。
大場ななの狂気的な部分をうまく出せたんじゃないかなと思ってます。個人的には結構気に入ってます。
あとイラストも自分で描きました

普段イラストを描く人間じゃないので色々資料を用意したりと大変でした。笑顔が一番!かわいい!、、、?

まとめ

ここまで長ったらしい文章を読んで頂き本当にありがとうございます。
音MADの話は以下のTwitterでしているので良ければ見に来てください。
西條クロディーヌでした!au revoir!




この記事が気に入ったらサポートをしてみませんか?