論文解説 MotionFollower: Editing Video Motion viaLightweight Score-Guided Diffusion

project page : https://francis-rings.github.io/MotionFollower/
arxiv : https://arxiv.org/abs/2405.20325
github : https://github.com/Francis-Rings/MotionFollower

ひとことまとめ

軽量で精度の高いAnimateAnyoneを作った


ベースとなる動画(Source Video)とモーションの参考となる動画(Target Video)から、ベース動画の人物を参考のモーション通りに動かす方法

提案モデルの生成例

Animate Anyoneなどの手法はベースとなる人物のデータは画像データであり、提案手法はベースとなるデータが動画データとして入力される点が異なる

提案手法

アーキテクチャの概要。Animate AnyoneやMagic Animateなどのように条件情報を処理するControlNet機構とtemporal attentionをモデルに追加する

Pose Controller (PoCtr)

Pose Controller (PoCtr) はポーズとなる情報を処理するモジュールで、4つの畳み込みブロックから成り立ち、1ブロックは2つの畳み込み層から成り立つ
ポーズ情報はPoCtrを通じて潜在変数と同じ次元にしたあと、denoise前の潜在ノイズと足し合わせる。
Cross attentionやconcatなどの重い処理を行う必要がないため、非常に計算が軽い。また、最終層はzero convolutionを行い初期の学習を安定化させる

Reference Controller (ReCtr)

Reference Controller (ReCtr)はPoCtrと同様に4つの畳み込みブロックで構成されている。Source VideoはReCtrで複数解像度の特徴量に変換され、それらはU-Netに直接加算される。MagicAnimateやAnimateAnyoneなどと異なりCrossAttentionやconcatを用いないため、計算量が非常に小さくなる
細かなテクスチャや一貫性を保つため、テキスト情報を使用せずAnimate Anyoneと同様にCLIP特徴量をCrossAttentionを通じてモデルに入力する

Training Strategy

学習は2段階に分けて行い、1段階目で画像の学習を、2段階目で動画の学習を行う

1段階目

Temporal Attention (motion module) を学習から除外し、それ以外のモジュールの学習を行う。具体的にはPoCtr, ReCtr, U-Netを学習する。PoCtr, ReCtrはランダムなガウスノイズで初期化し、U-NetはSD v1.5の重みを使用する
学習は1動画の中からランダムにsource imageとtarget imageを取り出し使用する。これによりsource imageを任意のtarget imageのposeに画像編集することを学習する

2段階目

2段階目はTemporal Attentionのみを学習する。このとき、重みはAnimateDiffで学習された重みを用いる
ただし、Temporal Attentionのみを動画クリップで学習する場合、高品質な編集ができなくなる。それを解消するため、画像編集と動画編集を交互に切り替えながら行うhybrid trainingをする
40%の確率で1段階目の学習を再度行う。しかし同じSource Videoから2つの異なるビデオクリップをランダムに選択する。これにより時間的な一貫性を向上させる

推論時のScore Regularizationによる一貫性ガイダンス

Target posesやSource framesなどの追加情報で構造や見た目を修正できるが、前景情報や背景情報に関しては保証されない
denoiseの1ステップは分布のscoreを表すことが知られており、スコア関数はdenoiseプロセスを特定の方向に導くことができる。スコアを推定する際に正則化を課すことで簡単に制約を追加し、モデルがデータを希望する方向にノイズ除去するように強制できる。これにより、不整合を解決できる。

特に軽量なSegmentationモデルを使うことでsourceの前景と編集した動画の前景を予測し、生成したマスクを使用し生成結果を誘導する。この計算はやや複雑なのでここでは省略する。(前景・背景の中間特徴量をそのままの画像と変形した画像で類似させるような損失を計算し、画像に加算することで誘導している)

Experiment

各設定
定量評価

メモリ使用量以外のすべてのケースで提案手法が優れていることがわかる
特に再構成が非常にうまくいっており、Score Regularizationによる前景・背景の再構成ガイダンスが強く効いていることがわかる

定性評価

他の手法はモーションの再現はできているが、時々頭や足の情報がそのまま残ってしまいきれいに出力されないケースがある。また、一部の手法では正確なモーションの再現や服装が変化してしまったりしている。
提案手法はモーションを正確に再現するとともに、背景を含め外観の整合性が高く、非常にきれいに生成が行えている

まとめ

非常に軽量に動く高品質なvideo motion editingの手法を提案した。軽量なCNNのPoCtrとReCtrを導入し、一貫性ガイダンスを行うことで前景・背景ともに元画像と一貫性を保持した生成を行うことができる。提案手法はほとんどの評価指標で既存の手法を上回る精度を示した。

この記事が気に入ったらサポートをしてみませんか?