Vtuberになりたいけど金が無いからAIと900円で何とかした

2024年4月21日 13:25

お世話になっています。まるです。
最近、AIの力と900円でVtuberになったので、そのときのことを記事にまとめてみます。

はじめに：VtuberモデリングのAI化

僕は以前からYouTubeにゲーム実況や解説の動画を上げているのですが、そんなことやってるうちにVtuberのアバター欲しいなとか思うようになってきました。
音声だけ付けるよりもアバターがあったほうが動画的に映えますし、流行していることもあってVtuberのほうが人も来やすそうですし、なによりイケメンアバター使えば中身がどうであれ色んな人からチヤホヤしてもらえそう。

てことでVtuberになろうかなと思ったんですけど、モデルを用意するのって結構な費用がかかるんですね。
試しに「Vtuber モデル相場」で検索してみたら

イラスト制作～モーション作成まで一括して依頼する場合
・制作会社の場合
　制作会社の場合、一括して依頼すると30～40万円程度かかります。
・個人クリエイターの場合
　個人クリエイターに依頼する場合は、10～15万が相場です。

Creative info for Biz『Live2Dの制作依頼の相場はいくら？個人と制作会社別に紹介』

ということなので、最低でも大体10万円くらいは必要になるようです。
自分にとってはちょっとためらってしまう金額だなあと。

しかしながらVuberモデルがここまで高いのにも理由があって、例えばLive2Dモデルの場合であれば制作をするのに以下の工程が必要となるようです(自分も詳しくないので参考程度で)

キャラクターの原案を作成する
身体の部位ごとにパーツを作成する
パーツにメッシュを割り当てる
目や口の動きといった表情を付ける
顔や身体の動きを付ける、などなど…

もしモデルを一から作るとなれば上記の全工程に着手しなければいけないわけで、そうなると10万円を超すのはむしろ当然のように思えます。

とはいえ、このくらいの金額になると簡単には手が出せないものです。なんとか工夫して費用を抑えることはできないでしょうか？
気になってネットで色々と調べてみたところ、どうもAIを最大限に活用することで費用をガッツリ削減する方法があるようです。調べた限りは次の2つのAIが使えました：

指定のフォーマットに合わせてイラストを作成するAI（いわゆるAIイラスト）
生成した一枚絵に対して、カメラで読み取った自分の表情を元に、自動で目や口、顔の動きをつけてくれるAI

で、驚くことにこの2つのAI, なんと無料で誰でも使用することができるんですね。そうすると上で述べたモデル生成の過程を全部AIに置き換えることができて、大幅なコストカットになるわけです。
表情や顔の動きを読み取るためのソフトは有料なんですが、それも900円で購入できるものです。普通にモデル制作を依頼すると最低10万円かかることと比較したら、900円なんてもはや無視できるレベルに思えます。

ここまで安くできるなら、いっちょやってやろうか！ということで実際にAIを駆使してVtuberのアバターを作って動かしてみたので、その流れを記事にまとめてみます。

AIイラストによる一枚絵の生成

まずはAIイラストを使って一枚絵を作成するところから始めます。
世の中にはAIイラストを作ってくれる様々なサービスがあり、LINEのAIイラストくんやMicrosoftのBing Image Creatorなどが有名かと思いますが、できればこういった外部のサービスを利用するのではなく、無料で配布されているAIイラスト生成用ソフトを自分のPCに落として使用するのがオススメです。なぜかというと

外部のサービスを使うと無料の範囲では枚数制限があることがほとんどだが、自分のPCでAIイラストを作るのであれば無料で無制限枚数のイラストを作成できる。
外部のサービスよりも柔軟に様々な機能を追加することができる。

という2点が大きいメリットかと思います。
特にこの2つ目が重要で、今回生成するイラストを後段のモーション付けAIで処理するためにはしっかりと構図を指定する必要があります。

外部のサービスでこの構図を再現するのは中々骨が折れるのですが、自分のPCでAIイラストを生成するのであればそこまで難しい作業ではなくなります。
例えば、上のイラストから骨格部分だけを抜き取った上で画像を再生成する拡張機能を利用すると、要件を満たすイラストを簡単に作ることが可能です。

ということで、今回自分は一枚絵を自分のPCで作成しました。
使用したAIは最も標準的である Stable Diffusion(※1) というAIです。
(正確にはStable Diffusion WebUI Forge(※2))

この Stable Diffusion に加え、構図要件を満たすイラストを作るために ControlNet と OpenPose Editor という拡張機能を入れています(※3)。
これらを用いて、後述するモーション付けAIの要件を満たすように一枚絵を作成しました。

AIによるモーション付け

続いて、上で生成した一枚絵を動かせるようにしていきます。
使用するAIは Talking Head Anime 3 というAIです。
動かすにはPCにある程度のスペックが要求されること(※4)、使えるようにするには少し手間がかかること(※5)、モデルファイルをダウンロードする必要があること(※6)に注意が必要です。

このAIは、一枚絵を入力するだけで自動的に目や口や顔の動きを付けたモデルを生成してくれるAIです(※7)。しかも無料。そんなことあっていいのか。

自分の表情にあわせてこのモデルを動かすためには、別途カメラで表情を読み取るアプリが必要です。iPhoneを持っている人なら900円で買えます(※8)。今回の記事で唯一の課金ポイントです。

上記まででVtuberとなる準備はすべて整いました。
あとはアプリで読み取った表情をモーション付けAIに同期するだけで、自分の動きに合わせてアバターが動いてくれるようになります。

このアバターはグリーンバック上で動かすことができるので、OBSなどの配信アプリを使ってアバター部分を切り抜けば、立派なVtuberの完成です！

やってみた感想

普通なら10万円以上かかるVtuberのモデリングがまさかの900円でできたわけですが、クオリティが低いかと思いきや、全然そんなことはありませんでした。
もちろん本格的に細かく調整されたLive2Dモデルと比べれば動きに制限はありますが、このままデビューしても違和感を感じないくらいのモデルにはなっているように思います。

あと今回のように全工程をAIに任せると、アバターの新しいバージョンを作る際に非常に楽だというのは大きな強みの一つでしょう。例えばアバターの衣装が違うバージョンのモデルを作りたいとなったとき、モデル作成を外部に依頼すると追加でさらに数十万単位で費用が発生するわけですが、今回の工程に従えば、AIイラストで別パターンのイラストを生成するだけで良いので追加費用がかかりません。つよい。

ただAIイラストを使っているがゆえに著作権的にどうなのかとか言われることはあるかもしれないです。
たとえ使用したAIイラストのモデルが商用利用可となっていても、AIイラスト自体に嫌悪感を抱く人は少なくないわけで、ちゃんとVtuberとして本格的に活動するのであれば、やはりお金を出してでも人間にモデルを作ってもらったほうがよいでしょう。
とはいえ、僕のように別に人気ライバーになりたいとかいう志があるわけでもなく、ちょっとやってみたいなという人にとっては、今回の方法はかなり敷居が低くてとっつきやすいものではないかなと思いました。

おわりに

以上、AIの力と900円でVtuberになった過程をまとめてみました。
Vtuberにちょっと興味はあるけど、そのためだけに数十万もかけるのはちょっと…という方々、ぜひ参考にしていただけると嬉しいです。

この記事が面白いと思ってくださった方、ぜひいいねを押して貰えると今後の励みになります。
以上、最後まで読んでくださりありがとうございました。

参考にしたサイト

補足

主に自分が躓いたところのメモです。

※1：
Stable Diffusion の導入方法はググれば割と出てきます。例えば以下はWindowsにおける導入方法を解説したサイトです。

注意しないといけないのは、Stable Diffusionの動作環境においてPython 3.10.6が推奨されており、最新のPythonでは動かないという点です。
Pythonの最新verだと、Stable Diffusionに使用するPyTorchがサポートされていないことがあるため動作せず、また昔のverだと高速化に必要なxformersが使えずに動作が遅くなってしまうことがあります。

もしPythonのバージョンを間違えてStable Diffusionをセットアップしてしまった場合は、以下の手順を踏めば解決します。

stable-diffusion-webuiフォルダ配下にあるvenvフォルダを削除
Pythonのデフォルトバージョンを3.10.6に切り替える
webui-user.batを起動

Pythonのデフォルトバージョンの切り替えは、パスを書き換えるのが一番手っ取り早いと思います。

※2：
Stable Diffusion WebUI Forgeは2024/02/07に公開されたモデルで、ミドルクラスのGPUを使用している環境であれば従来と比べて30~45%の速度改善を期待することができます。
(※1)ですでに従来版 Stable Diffusion の環境が整っていれば、以下サイトのGitコマンドを打つと楽にForgeを使えるようになると思います。

※3：
拡張機能の入れ方：

ControlNetについて：

記事にもある通り、ControlNetを使うためには別途モデルをダウンロードする必要があります(無料)。
なお１つ目の記事にも記載がある通り、Forgeを使う場合はモデルの格納先が以下のディレクトリになることに注意してください。

[stable-diffusion-webui-forge] > [models] > [ControlNet]

OpenPose Editor について：

なお次の画像は構図要件を512×512にトリミングしたものです。
ControlNetのopenposeで骨格を抜き出すのに使ってください。

※4：
公式の説明ではRTX 2080以上のGPUがあれば大丈夫のようです。ガレリアの相場的には、16-17万円程度のゲーミングPCなら動作すると思います。ただ実際にVtuberとして活動するならアバターを動かすだけでなく、同時に配信や録画をしたりゲームをすることになるので、より高性能なPCが必要になるかと思います。

自分は25万円程度のPC(CPU: Core i7-14700F, GPU: RTX 4070 SUPER)を使っているのですが、アバターを動かしながら軽めのゲームをして配信をするくらいなら何も問題ありませんでした。

※5：
Talking Head Anime 3 を動かすには以下の環境が必要です。

Python >= 3.8
PyTorch >= 1.11.0 with CUDA support
SciPY >= 1.7.3
wxPython >= 4.1.1
Matplotlib >= 3.5.1

中でもPyTorch GPU 環境の構築が面倒で、以下の手順を踏む必要があります。

Visual Studio のインストール
適切なバージョンのCUDA Toolkit のインストール
cuDNNのダウンロード
適切なPytorchのインストール

かなり厄介なのですが、以下２つの記事を参考にするとできると思います。

※6：
忘れてしまいがちなので注意すること。
以下ページの「Download the Models」を参照。

※7：
Talking Head Anime 3 に画像を読み込ませようとしてもうまくいかない場合は、まず入力する画像が要件を満たしているかどうかを確認すると良いと思います。

・It should be of resolution 512 x 512. (If the demo programs receives an input image of any other size, they will resize the image to this resolution and also output at this resolution.)
・It must have an alpha channel.
・It must contain only one humanoid character.
・The character should be standing upright and facing forward.
・The character's hands should be below and far from the head.
・The head of the character should roughly be contained in the 128 x 128 box in the middle of the top half of the image.
・The alpha channels of all pixels that do not belong to the character (i.e., background pixels) must be 0.

自分の場合は背景の透過処理を忘れていて、ずっと画像の読み込みに失敗してました。

※8：
このアプリはPC版もあるので両方試したのですが、安いWebカメラで表情を読み取らせるのであればiPhoneを使ったほうが断然精度が良かったです。

なお、iPhoneを持っていないなどでPC版のiFacialMocapを使用する場合は、Advanced Setting の Send Version を v2 をする必要があることに注意してください。

この記事が気に入ったらサポートをしてみませんか？