見出し画像

最近Volumetric Videoが気になる。

昨年(2019)の11月くらいにARIZEというARイベントに参加して、Holotch(ホロッチ)の小池さんの講演を聞いてからVolumetric Video(VV)面白そうだな〜と思ってずっと調べてきた内容をまとめたりしました。まさかのWithコロナというタイミングも相まって、VVの機運は高まりつつあります。

画像1

その時は、複数台のKinectで対象物を囲んでキャプチャすれば360度のメッシュが取得できてホログラムっぽい事ができるくらいにしか思ってなかったのですが、その後8i(エイトアイ)というVolumetric Videoの撮影会社を知ったのをきっかけに芋づる式に4DVIEWSMETASTAGEという会社を知りました。フォトグラメトリで感動してた自分ほんと。。。海外ではもう動物体を撮っていて結構な衝撃でした。

余談1) ちょうどVolumetric Videoが気になりだした2020年始めくらいにライゾマ展に行った際、ふとSXSWで行ったPerfumeの演出(2015)のデバッグ画面に写っていたVVデータをどう撮ったのか気になりまして。調べていくと、2015年当時になんと4DVIEWSでPerfumeのVVデータをということが判明。さすが真鍋さん取り入れるのが早いな〜と思いました。

Volumetric Videoとは

Volumetric Video(VV)は一言でいうと、対象物体の動的な動きを立体で撮影できるメディアです。おそらく聞いたことのある「フォトグラメトリ」は静止した物体、もしくは静止した瞬間しか撮影できなかったのに対し、Volumetric Videoは立体の動画を撮れるわけです。

画像2

撮影メディアの進化:Case study - Representing humans in mixed reality より

従来の写真で立体を作ることは難しかったのは当然ですが、モーションキャプチャの登場によって三次元の動きをトラッキングすることはできるようになりました。モーションキャプチャを使用するにはマーカーを体に配置する必要があり、皮膚や衣服の三次元形状を密にキャプチャすることは非常に難しかったわけです。(モーキャプで得られたマーカー情報は主に、人体の骨の動きや表情の動きを取得するのに使われます。) 

余談2) ドイツにあるマックス・プランク研究所のMichel Black教授らは、MoShという論文(SIGGRAPH ASIA 2014)で、「せっかくモーキャプのマーカーを人の皮膚に付けてるのに、スケルトン情報に落とし込んだらせっかくのリッチな皮膚の動き(肉揺れ)が撮れないし、肉が揺れたらスケルトンの推定精度も落ちるよね。だったら肉揺れの動きをモーキャプで取得してモデル化してしまおう(注: 意訳)」と提案しました。この論文を読んだ当時とても衝撃を受けました。僕は2014年頃、物理シミュレーションを使って実時間で肉揺れアニメーションを生成する研究をしていて、どうやったら肉揺れの実データを撮れるかずっと考えていたわけです。その手があったかと。

それに対して、Volumetric Videoは衣服の形状や髪の毛の動きなんかも復元できてしまうので、これから様々な用途で使えそうです。VVについてより詳しく知りたい場合は、TED TALK(英語)がわかりやすいです。日本語だと、Holotch小池さんのnoteにまとまっています。もしも!あなたがopenFrameworksを好きな方だったら、oFコミュニティのJames George氏が、VVに関連するクリエイティブプロジェクトをMediumにまとめてくれています。

利用シーン

Microsoftが提案しているVolumetric Video技術を利用したHoloportationのデモ動画。単身赴任中のお父さんが、家の娘さんとホロレンズを使ってコミュニケーションしている設定でしょうか。

Volumetric Videoとして取得したデータは様々なシーンに活用できると思うのですが、僕の場合は大学院時代にダンス生成に関する研究をしていたので、ダンスの動きをキャプチャできたらいいなと思ってます。当時はモーションキャプチャで得られたスケルトンでどうダンスを生成するかについて考えてきたのですが、VVで衣服や表情まで撮れたらそのダンスの熱量みたいなものがより伝わると思うんですよね。

最新研究の動向

今年に入ってVVについて調べていると冒頭で言ったのですが、主には論文ばっかり読んでました。調べた内容は僕のCGアカデミアというブログにまとめていますので、もし興味があれば読んでください。このブログは同じ研究分野の方や会社の人に読まれるとなんだか恥ずかしいなと思って、Twitter等で基本的にシェアしていません笑

一番気になる論文は"Motion2Fusion"という論文でして、通常Kinectを囲んで得られるRGB+Depth情報だけではノイズが多くそこそこなメッシュしか取得できないのですが、Motion2Fusionではフレーム前後の頂点の対応関係を高速に検出し、前フレームの形状を"Embedded Deformation"という非剛体変形手法を使って次フレームにフィットするように更新することで同位置の頂点を累積していくことができます。その累積する空間はTSDFというものが別にあってそこに溜め込む感じです。なので、Kinectカメラ単体で取得した背面の形状もずっと残っているわけです。(正確には彼らが使用しているのはKiectではなく、120FPSくらいとれるIRカメラというものです。) 何よりもこの処理を100FPS程度で行うことができるため、人のダイナミックかつ早い動きもきちんとトラッキングができるのがすごいところです。

ちょっと紹介しすぎると長くなりすぎるので、その他の研究と一緒にまとめておきます。

これから(地道に)やりたいこと

4DVIEWSやMETASTAGE使えばかなり高いクオリティで撮影できるのでそれを使えばいいじゃんという話なのですが、一回撮影スタジオを使用するのに施設費用がなんと170万円かかるのです。。。なんとかこの技術を民主化できないかなぁと思ってて、Volumetric Videoデータに必要なデータ、カメラの内部/外部パラメータとカラー画像やデプス画像などを集めてはblenderやopenFrameworksで可視化してたりします。

まずはRGBDデータからオフライン(非リアルタイム)でよいので連番のテクスチャ付き三次元メッシュを得られればいいかなと思ってます。GW中にプログラムを書いたりしつつ、そのプロセスをまとめられればと思います。

まとめる

Volumetric Video(VV)とは何なのか、どういった利用シーンが想定されて最新研究どんな感じかという話をしました。当初はVolumetric Videoがアナログとバーチャルの架け渡しになってこれからの遠隔システムとか変わっていく〜みたいな話をしようと思ったんですが、最終的に研究寄りの話になってしまいました。また近々、Withコロナな生活と絡めたVVの魅力を考察していけたらと思っています。5月中にHolotchの小池さんがVVイベントをやるかもということなので、そういったイベントを通じてVVに興味がある方と知り合えるのが楽しみです。VVの普及はまだしばらく先かと思いますが、5Gが普及したらHoloportationのようなことがより身近になって来そうです。

この記事が気に入ったらサポートをしてみませんか?