CoDeFについてメモ

y1111111

2023年9月13日 20:33

処理について

動画１つごとに一連のニューラルネットを１つ学習。
学習するのはEmbedding(図中の左にある立方体群), 1つ目のMLP, x'y'のEmbedding, 2つ目のMLP
- (x', y')を取得するまでの処理に対応するコード deform_pts()
  - https://github.com/qiuyu96/CoDeF/blob/137f16c5423d484846857327597bf65c06b92994/train.py#L142-L175
    - https://github.com/qiuyu96/CoDeF/blob/137f16c5423d484846857327597bf65c06b92994/train.py#L158-L173
  - https://github.com/qiuyu96/CoDeF/blob/137f16c5423d484846857327597bf65c06b92994/train.py#L190
- 1つ目のMLPの処理に対応するコード
  - （省略）
- (x', y')のEmbeddingに対応するコード
  - https://github.com/qiuyu96/CoDeF/blob/137f16c5423d484846857327597bf65c06b92994/train.py#L204
  - https://github.com/qiuyu96/CoDeF/blob/137f16c5423d484846857327597bf65c06b92994/train.py#L52-L53
- 2つ目のMLPの処理に対応するコード
  - https://github.com/qiuyu96/CoDeF/blob/137f16c5423d484846857327597bf65c06b92994/train.py#L221
  - https://github.com/qiuyu96/CoDeF/blob/137f16c5423d484846857327597bf65c06b92994/models/implicit_model.py#L220

実行のstep
- 各種ニューラルネットを学習
- Canonical Imageの生成
  - Canonical Imageは基本動画に対して１枚（？）
    - フレーム数分ではない
  - Canonical Imageは(x', y') = (x, y)として生成。（Δx=Δy=0）
    - https://github.com/qiuyu96/CoDeF/blob/137f16c5423d484846857327597bf65c06b92994/train.py#L457
      - encode_w = False とする。
- Canonical Imageに対して変換処理を加える
  - ControlNetを使用した画像変換など
- 変換処理を加えたCanonical Imageから動画を再構成
  - 各フレーム(x, y, t)について１つ目のMLPまでのニューラルネットを使用して(x', y')を得る
    - deform_pts() に対応
  - Canonical Imageから(x', y')のRGB値をサンプリングする
    - https://github.com/qiuyu96/CoDeF/blob/137f16c5423d484846857327597bf65c06b92994/train.py#L206-L219

Lossについて

$${L_{rec}}$$ は再構成誤差。２つ目のMLPの出力と実際のrbg値とのMSE？
https://github.com/qiuyu96/CoDeF/blob/137f16c5423d484846857327597bf65c06b92994/train.py#L340-L342

$${L_{flow}}$$ について

optical flowによって推定された対応点がCanonical Fieldで同じ点になるようにする。

Corresponding points identified by flows with high confidence should be the same points in the canonical field.

optical flowが正確であれば、時刻$${t}$$における$${x}$$と時刻$${t+1}$$における$${x + F^{x}_{t \rightarrow t+1}}$$には同じモノが存在しているはず。
これらをCanonical Fieldの中で同じ座標(grid)に写像する。
つまり、$${D(\gamma_{3D}(x, t))}$$ と $${D(\gamma_{3D}(x+F^{x}_{t \rightarrow t+1}, t+1))}$$ の誤差を最小化するような学習をさせる。

（理解できていない点）
なぜ$${-F^{x}_{t \rightarrow t+1}}$$の項が含まれているのか？上述の理解が間違っている？
時刻$${t}$$における$${x}$$と時刻$${t+1}$$における$${x + F^{x}_{t \rightarrow t+1}}$$がCanonical Fieldの中でも$${F^{x}_{t \rightarrow t+1}}$$の位置関係にあるように学習している？

時刻tにおけるgrid xの表現。学習対象の関数のひとつ。grid xは(x, y)

時刻tにおけるgrid xの Canonical Fieldでのgrid。図中の(x', y')。

grid xの時刻tからt+1におけるoptical flow。既存手法RAFTによって取得。

grid x の optical flow によって計算される時刻t+1の grid x+F の時刻t+1の Canonical Fieldでのgrid。

コードを見ると他にも色々lossを使用している？https://github.com/qiuyu96/CoDeF/blob/137f16c5423d484846857327597bf65c06b92994/train.py#L315-L388

この記事が気に入ったらサポートをしてみませんか？