年末ホロライブのバーチャルかるたに関する技術考察

はじめに

 正月からかなり日にちは空いてしまいましたが、年末ホロライブの放送にあったバーチャルかるたについて技術的に好奇心惹かれることがあったので考察記事を書きたいと思います。

なお、若干メタな視点(いわゆる中の人的な要素)が含まれるためそれらを気にする方には申し訳ございません。

年末ホロライブにおけるバーチャルかるたとは

 動画にある通り、3D空間でホロライブにちなんだかるた取りをやるだけです。2人一組でカードを探すのですが、客観視点で全体、主観視点でそれぞれの視点が映っています。その中で気になったのは「3D空間上のかるたをどうやって主観視点で視認してるんだろう」ということです。当然カルタを探すにはかるたの文字が見えてなければ不可能です。従ってホロメンの目の前にかるたが存在しているような状況を作らなければなりません。今回はそれらを考察していきたいと思います。

かるたの視認手段

 動画の通り、主観視点のみにかるた画像が映っています。従ってホロメンにはこれと同じ映像が見えていると思うのが妥当かと思います。するとこれを実現できる方法として最も候補に挙がるのはヘッドマウントディスプレイ(HMD)であると推測できます。その根拠としてはホロメンは2人二組で行動しており、カードを探すホロメンを補助をしているような様子がうかがえます。その時の様子がまるで目隠しをしている人を補助するような動きに見えるため恐らくHMDを用いているのではと考えました。

画像1

ただ、ここで気になったのはHMDでかるたを視認しているのは良いとして、その間の表情や瞬きに関するキャプチャはどうやっているのかということです。その考察については事項で述べます。

HMDにおける表情キャプチャについて

 ホロライブに限らず、HMDを用いた3D配信におけるVtuberの表情問題にはいろいろと課題や新技術による解決があるかと思います。少し調べてみるとHMD内のセンサによる表情推定なども論文レベルでは研究開発されているようでした。ただ、私が出した結論としてはこれらを使っているのではなくその時はあまりカードを探すホロメンを正面から写さないようにすることで解決しているのかなと思いました。というのも動画には実際、あまり正面から映っている動画がないためその時の表情がどうなっている等の確認がしにくかった印象があり、それこそが手掛かりなのではというのが私の考えです。瞬きなどは疑似的に定期的にさせるようにすることも可能かと思います。

 また、口の動きに関してはおそらくマイク同期なのかなと考えています。母音ごとの口の動きは一定であることを利用してリアルタイムで音声処理をすればリップシンクすることは可能だと思います。

まとめ

 今回はホロライブのかるた取りを題材にその背景技術を考察しました。その結果、HMD装着時の表情に関する課題を解決しようという試みがあるうえで今回はそれらを使ってはいないのではという結論に達しました。ただ、あくまで動画を見ただけのところからの考察であるため、実際のところは何もわかりません。ただ、こういう機会を通して技術的な背景に興味を持って調べることができる楽しみもvtuberの魅力かもしれません。

終わりに

 私自身、ホロライブを見始めたのはここ数ヵ月ですが、普段の配信やライブなどを通して良いなと思ったことの一つに「配信者と技術のコラボレーション」があります。理由としては配信者の魅力ややりたいことを叶えるために日々技術的にもチャレンジがあるのかという期待感があるからです。今まで裏方に隠れがちだった技術の進歩が日々表に出てくるのが新鮮なのもあります。また、3Dモデルの操作は配信者の動き&外部のコマンド(表情推定や瞬き自動化などを含む)の連携によって成されるというのがより一層わかってきたのも感想です。


この記事が気に入ったらサポートをしてみませんか?