記事一覧
論文解説 LivePortrait: Efficient Portrait Animation with Stitching and Retargeting Control
ひとことまとめ
概要写真をポートレート動画にする研究はGANやDiffusionなどで数多く研究されている。しかしDiffusionベースのモデルは品質は良いものの、大量の計算リソースを使用する問題点と、細かな制御が利かない問題があった。そこで、暗黙的なキーポイントを使用したポートレート動画生成を行うことで、汎化性能、計算効率、制御性を向上させた。(ここで言う暗黙的なキーポイントとは、モデルに教
論文解説 StableNormal: Reducing Diffusion Variance for Stable and Sharp Normal
ひとことまとめ
概要以前の研究では、確率的な推論と、それらのアンサンブルに高いコストがかかっていた。そこで、アンサンブルを用いず、推論の分散を減らす方法を採用することで、安定かつ鮮明(Stable-and-Sharp)なnormalを生成する手法を提案する。
提案手法DIffusion modelの分散
Diffusionベースのnormal推定は高い分散を持つことが知られている。
これは
論文解説 AnyControl: Create Your Artwork with VersatileControl on Text-to-Image Generation
ひとことまとめ
概要ControlNetなどはStableDiffusionに追加で画像条件を加えることができる手法である。これにより、テキストで指示できない細かい調整を行うことができる。これを拡張し、複数の画像で条件付けする手法がいくつか提案された。しかし複数の画像条件付けには以下の問題がある。
1. 入力の組み合わせによらない
2. 複雑な複数の空間条件の組み合わせでも生成できる
3. テ
論文解説 Style-NeRF2NeRF: 3D Style Transfer From Style-Aligned Multi-View Images
ひとことまとめ
概要画像生成AIの変換能力をNeRFに応用することで効率的な3Dスタイル変換を実現した。一度NeRFを学習させたあとSDXLでスタイル変換を行い、そのスタイル画像から再度NeRFを再学習させることで、品質の良いスタイル変換を可能にした
提案手法提案手法は、NeRFから複数の角度でレンダリングを行い、それをスタイル画像に変換する工程と、NeRFを生成したスタイル画像でfinetu
論文解説 MotionMaster: Training-free Camera MotionTransfer For Video Generation
ひとことまとめ
概要画像や動画の生成においてDiffusion modelは急速に発達している。しかし既存のカメラコントロールの手法の多くは追加で学習するモジュールに依存している。また、固定のカメラモーションのみに対応しており、柔軟性が低い。提案手法のMotionMasterでは、参照動画のカメラと物体の動きを生成する動画のガイドとして利用できる学習なしの手法を提案する
関連研究物体の動き制御
論文解説 4M-21: An Any-to-Any Vision Modelfor Tens of Tasks and Modalities
ひとことまとめ
概要Any to Anyの研究は以前から行われていたが、使用されているモーダル数が少なく変換に制限があった。そこでSAMや4DHumansなどの疑似ラベルや画像のメタデータやカラーパレットなどのモダリティを追加した。既存のモデルよりも性能の低下なしに3倍多くのタスクやモダリティを解けることを示した
提案手法提案手法は4M(https://arxiv.org/pdf/2312.0
論文解説 ReNO: Enhancing One-step Text-to-Image Models through Reward-based Noise Optimization
ひとことまとめ
概要
拡散モデルは主流な画像生成手法の1つで、画像をランダムにノイズを加え、そのノイズを予測することでモデルの学習を行う。また、画像生成時はランダムなノイズ画像から少しづつ画像を取り除くことで画像を生成する。生成品質は高いが、生成に時間がかかる問題があった
そこで、少ないステップ数で高品質な画像を生成する手法が開発された。
数ステップで推論できるものや、1ステップで推論できる
論文解説 Stable-Pose: Leveraging Transformers forPose-Guided Text-to-Image Generation
ひとこと要約
概要StableDiffusionのようなT2IモデルはControlNetのような追加条件を与えることで条件に沿ったきれいな画像を生成できる
しかし、人の側面や背面など難しいポーズの場合は正しく生成できない問題が多く発生する
そこで、独自のViTをControlNetの前に追加することで高い精度を実現した
提案手法提案手法はControlNet(StableDiffusion
論文解説 MotionFollower: Editing Video Motion viaLightweight Score-Guided Diffusion
ひとことまとめ
ベースとなる動画(Source Video)とモーションの参考となる動画(Target Video)から、ベース動画の人物を参考のモーション通りに動かす方法
提案モデルの生成例
Animate Anyoneなどの手法はベースとなる人物のデータは画像データであり、提案手法はベースとなるデータが動画データとして入力される点が異なる
提案手法Pose Controller (PoC