見出し画像

時間と空間を編集する新しい撮影ツール「4D NeRF」

こんにちは。Detsu Lab Tokyo のクリエーティブテクノロジストの横山です。

先日 Dentsu Lab Tokyoは、独自の R&D プロジェクトで新しい撮影ツールである「4DNeRF」のプロトタイプを九鬼、齋藤と開発しました。
また、その撮影技術を用いて日本のテクノポップバンドLAUSBUBさんのMVを制作しました。
この記事では技術開発のお話を少しだけできればと思います。

(プロトタイプ開発のリリース記事↓)

(LAUSBUBさんの実際のMV、下記リンクからご覧いただけます↓)
LAUSBUB - I SYNC (Official Video)

NeRFとは

まず、冒頭で触れた今回開発した「4DNeRF」という撮影技術の元である、 「NeRF(Neural Radiance Fields)」という技術について。

NeRFとは、2020年にカリフォルニア大学によって発表された技術で、複数の写真から「自由視点画像」つまり、”自由な視点” (角度や位置) からシーンが見える画像を生成することを可能にします。

以下のGIFのように、数枚の画像から、複数の角度で撮影された画像を生成することができます。



近年、このNeRF技術を使って簡単に空間を再現できるツールが世の中にたくさん出てきました。
百聞は一見にしかずということで、以下のアプリなど是非試してみてください。
(NeRFツール↓)


この技術は、ここ数年で映像作品の表現手法としていくつか用いらるようになりました。
このマクドナルドの映像もNeRFで制作されています。


どこからでも空間を見られる「自由視点性」は、後からカメラワークをつけたり、オブジェクトを重ね合わせたりと空間を自由に編集することを可能にしました。
ただ、被写体には動きがありません。

4D NeRFとは

一方、4D NeRF は複数のカメラによる映像から「自由視点映像」を生成する技術といえます。
実際には、24台のスマートフォンで映像を撮影し、同時刻の各フレームごとに NeRF モデルを学習、得られた「自由視点画像」のシーケンスこそが、「自由視点映像」です。

時間の次元を加えることで、時間的にも自由に編集することが可能になります。

<撮影システム>

機材は、24台のiphoneと24台のスマホ用の三脚を用意しました。
また、NeRFの学習では画像の各点の放射輝度と体積密度をニューラルネットワークを用いて学習します。
つまり、動く被写体では、同じ点に対する情報が時間とともに変化しているため、24台の映像(画像)が正確に時間的に同期していることが極めて重要になってきます。
そこで、24台のスマートフォンで0.01秒以下の誤差で同時にスローモーション撮影を行うことができるアプリケーションを開発しました。
制御PCと24台のスマートフォンをローカルネットワークで通信し、時刻や撮影時の情報(シーン数やテイク数など)、録画の開始・停止信号をすべてのスマートフォンと同期することで実現しました。

<学習・レンダリングシステム>

24 台のスマートフォンの映像から各フレームを切り出し、各NeRFモデルを学習させました。

具体的には、
step. 1:撮影した映像からフレーム切り出し
step. 2:24台のカメラの位置推定
step. 3:各フレームごとにNeRFモデルの学習
を行いました。

24台のカメラの位置推定をより正確に行うため、ArUcoマーカーを使用しました。

その後、カメラワークや被写体の時間を自由に編集し、映像を生成(レンダリング)しました。
カメラワーク・被写体の編集にはBlenderHoudiniを使用しています。

被写体と背景は、後から合成しています。

これによりモーションコントロールカメラやドローンでは実現不可能だったカメラワークや、時間を超えて動く被写体など、これまで不可能だった映像表現が可能になります。
(カメラワークと時間編集の無限の可能性は、撮影後の無限の作業を生むこととなるのですが…)

そして出来上がった作品がこちら

おわりに

冒頭でクリエーティブテクノロジストって?と思った方も多いと思います。(僕もそう思っています…)
今回のnoteでは、「NeRFとは」で少しだけ原理の話からさせていただきました。(知ってるよ!という方が多かったかと思いますが)
原理から知っていることで、研究としてのアウトプットではなく新しい表現としてアウトプットできたり、誰かの困りごとことの解決法を思いついたり、と
そんなことができる人でいたいな。と思っています。




この記事が気に入ったらサポートをしてみませんか?