見出し画像

低スペ&旧式Macbook Proで自作モデルを作ってVtuberやってみようという備忘録 その5.5【読み上げソフトでリップシンク編】

おさかなと申します。
フェイストラッキングまで終わったので、後は動画作成といきたいところなのですが、今回は応用編として「読み上げソフトでモデルにリップシンクさせる」という方法について解説していきたいと思います。

地声やボイチェン使えばいいのかもしれませんが、できれば自分の声は使いたくないMacユーザーのVtuberを目指している方向けという結構ニッチな記事になります。

バ美肉にもオススメだと思うんですが、もうやってる人いるかも。

それではいきます。

問題点としてVtubeStudioでは入力がマイクでしかできない

なぜこのnoteを書く必要があるのかというと、Macは基本的に何もしていない状態ではMacから鳴っている音(Mac内で鳴っている音声)に関しては録音をすることができません。

そしてVtubeStudioに関しても上記の理由からMacから鳴っている音の入力はできないようになっています。
音の入力ができないとどうなるかというと、iTunesに保存してある歌や読み上げソフトでVtubeStudio側がリップシンクしてくれないということになります。

画像1

なのでゆっくり声のLive2Dモデルを作ってもそのままではゆっくり声で口パクすることはできないということですね。

ではどうするか。

Soundflowerというソフトを使う

Soundflowerはすでにサポート終了した仮想オーディオインターフェイスです。現状M1 Macでは使えないので注意しましょう(Blackholeという代替ソフトもあります)、とはいってもM1 MacじゃなければmacOS Big Sur (11.1) 以前のOSなら使えるようです。
他にも現役で使える仮想オーディオインターフェースはありますが、現時点でも使いやすいのはやはりこれなので、こちらで説明していきます。

オーディオI/Fを持っている人はMacの再生音を入力にすることができると思うので、Soundflowerではなくそちらをお試しください。

ダウンロードは現在GitHubが推奨されています。

ページを少し下がったところに「Soundflower-2.0b2.dmg」というdmgファイルがあるのでダウンロード・インストールします。
ここでほとんどの場合、前回のnoteで紹介したインストールがブロックされる状況になりますが記事通りに対処していただければインストール可能です。

インストールが完了し、右上のスピーカーマークをクリックすると「Soundflower(2ch)」「Soundflower(64ch)」という項目が追加されるようになります。

ここから少しMacの設定を変えます。

まずその1
Finderからアプリケーションを開き、ユーティリティーというフォルダを開きます。その中のAudio MIDI設定というピアノのようなアイコンのソフトを開きます。
まずSoundflowerをインストールしたばかりのAudio MIDI設定がこちらです。

スクリーンショット 2021-09-08 0.53.23

内蔵マイク、内蔵出力という項目の右下に小さいマイクマークとFinderマーク、スピーカーマークがあるのがわかるでしょうか。
このマークがついているものは現在そのMacのマイク・環境音出力・音楽再生などのスピーカーとして使われています。

スクリーンショット 2021-09-08 0.59.32

ここでSoundflower(2ch)をCtrlを押しながらクリックし(右クリックでもOK)、「このサウンド入力装置を使用」を選択します。
その際、フォーマットという項目が「2ch24ビット整数44.1kHz」となっていることを確認してください。違っている場合はプルダウンでフォーマットを変更できます。
ここで一つ目の手順はOK。

その2。
次に右下の+ボタンをクリックし、「複数出力装置を作成」を選択します。

スクリーンショット 2021-09-08 1.01.28

すると内蔵マイクを(他にもマイクがあればそれも)除いた出力装置がずらっと並ぶので、

スクリーンショット 2021-09-08 1.07.30

上記のようにSoundflower(2ch)と内蔵出力を選択しましょう。

スクリーンショット 2021-09-08 1.12.19

そしてこの「複数出力装置」をCtrl+クリックして「このサウンド出力装置を使用」を選択します。この時、サンプルレートという項目が44.1kHzになっていればなお良しです。

スクリーンショット 2021-09-08 1.14.47

これでMac側の設定は終わりです。

VtubeStudio側の設定について

マイクを使ってのリップシンクの方法と方法と被るところがあるのですが、ご説明します。
参考元は前回同様古隅ふゆせ氏のnoteです。

まずVtubeStudioで歯車マークの設定をクリックし、人マークと歯車の書かれたパラメーターの設定に入ります。
その中で「Mouth Smile」という項目のINを「VoiceFrequency」に、OUTを「ParamMouthForm」へ変更。
Mouth Open」という項目のINを「VoiceVolume」にし、OUTを「ParamMouthOpenY」に変更します。

スクリーンショット 2021-09-08 1.19.42

これで音の周波数で口の形が変わり、音のボリュームで口を開ける大きさが変わります。

次に左の歯車マークの設定に入り、一番下のリップシンク設定(マイク)まで行きます。マイクを使うにチェックを入れたら、マイクを選択するをクリックし「Soundflower(2ch)」を選択、OKを押します。
この時にサウンド設定などをいじったりしていたら念のため「リロード」を押しましょう。リセットではなく再読み込みなので押しても大丈夫です。

音素設定は日本語バージョンだと意味ないので無視で大丈夫です。

モデルに喋らせてみよう

ゆっくりボイスで有名なsoftalkはWindowsのみなので、簡単に試せるのはゆくも!というブラウザベースのサービスがあります。

ブラウザ上で読み上げてVtubeStudioで実際に口パクを確認するもよし、別途mp3形式で保存して同時収録してもよしだと思います。
なお、広告付きの動画投稿をはじめ営利目的のコンテンツを作成される場合は別途有料の使用ライセンスが必要です。

ゆっくりではなくVOICEROIDのようなアニメ・人間よりの声がいいという方には、CoeFont Studioがオススメです。こちらもブラウザベースのサービスです。

こちらは個人・法人・営利・非営利問わず利用が可能です。
なお、使用の際にはクレジットでVoiced by https://coefont.studio と表記するよう義務付けられています。
保存形式はwav形式になります。私も今の自作モデルにはこのCoeFontのMillial(ミリアル)の声を×0.9の速度にしてリップシンクさせています。

このようなブラウザベースの読み上げサービスを使いつつ、Vtube Studio側のボリュームブーストや周波数ブースト、ボリュームしきい値(コンプレッサーのようなもの)を調整して、自然なリップシンクを作っていきます。

Voiced by https://coefont.studio

出来たものがこんな感じです。

一応収録時には音声とモデルの動きを同時収録してるのですが、私のMacではやはりどうしてもズレるので編集ソフトで音声を動画と分離し口の動きに合わせ調整しています。

という感じで私のモデルはママ(デザイン・3D作成)はおさかなで、中の人は半分「中に誰もいませんよ…」みたいな感じを目指しています。

ということでMacによるVtubeStudioでの読み上げソフトでリップシンクでした。次回は作ったモーションなどで頑張って一つの動画を作ってみようと思います。

果たして低スペMacでVtuberデビューはできるのか!?
低スペ関係なくMacでVtuberデビューを考えている人にも参考になればと思います。

それではまた。


この記事が気に入ったらサポートをしてみませんか?