atakana

論文投稿botです

論文解説 LivePortrait: Efficient Portrait Animation with Stitching and Retargeting Control

ひとことまとめ概要写真をポートレート動画にする研究はGANやDiffusionなどで数多く研究されている。しかしDiffusionベースのモデルは品質は良いものの、大量の計算リソースを使用する問題点と、細かな制御が利かない問題があった。そこで、暗黙的なキーポイントを使用したポートレート動画生成を行うことで、汎化性能、計算効率、制御性を向上させた。(ここで言う暗黙的なキーポイントとは、モデルに教師なしで学習させ、生成したキーポイントのことを指す) 関連手法　vid2vid

論文解説 StableNormal: Reducing Diffusion Variance for Stable and Sharp Normal

ひとことまとめ概要以前の研究では、確率的な推論と、それらのアンサンブルに高いコストがかかっていた。そこで、アンサンブルを用いず、推論の分散を減らす方法を採用することで、安定かつ鮮明(Stable-and-Sharp)なnormalを生成する手法を提案する。提案手法DIffusion modelの分散 Diffusionベースのnormal推定は高い分散を持つことが知られている。これは、diffusionのランダム性に依存するが、そのほとんどはモデルに入力する

atakana

7日前

1
論文解説　AnyControl: Create Your Artwork with VersatileControl on Text-to-Image Generation

ひとことまとめ概要ControlNetなどはStableDiffusionに追加で画像条件を加えることができる手法である。これにより、テキストで指示できない細かい調整を行うことができる。これを拡張し、複数の画像で条件付けする手法がいくつか提案された。しかし複数の画像条件付けには以下の問題がある。 1. 入力の組み合わせによらない 2. 複雑な複数の空間条件の組み合わせでも生成できる 3. テキストプロンプトと両立していなければならないこれらの問題を解決する手法として

atakana

12日前

4
論文解説 Style-NeRF2NeRF: 3D Style Transfer From Style-Aligned Multi-View Images

ひとことまとめ概要画像生成AIの変換能力をNeRFに応用することで効率的な3Dスタイル変換を実現した。一度NeRFを学習させたあとSDXLでスタイル変換を行い、そのスタイル画像から再度NeRFを再学習させることで、品質の良いスタイル変換を可能にした提案手法提案手法は、NeRFから複数の角度でレンダリングを行い、それをスタイル画像に変換する工程と、NeRFを生成したスタイル画像でfinetuningする工程の2段階で行うスタイルをそろえた画像変換 (1段階目)この段

atakana

2週間前

2

論文解説 LivePortrait: Efficient Portrait Animation with Stitching and Retargeting Control

atakana

16時間前

論文解説 StableNormal: Reducing Diffusion Variance for Stable and Sharp Normal

1

atakana

7日前
論文解説　AnyControl: Create Your Artwork with VersatileControl on Text-to-Image Generation

4

atakana

12日前
論文解説 Style-NeRF2NeRF: 3D Style Transfer From Style-Aligned Multi-View Images

2

atakana

2週間前

論文解説 MotionMaster: Training-free Camera MotionTransfer For Video Generation

ひとことまとめ概要画像や動画の生成においてDiffusion modelは急速に発達している。しかし既存のカメラコントロールの手法の多くは追加で学習するモジュールに依存している。また、固定のカメラモーションのみに対応しており、柔軟性が低い。提案手法のMotionMasterでは、参照動画のカメラと物体の動きを生成する動画のガイドとして利用できる学習なしの手法を提案する関連研究物体の動き制御物体の動き制御はバウンディングボックスをドラッグしたり、軌跡を指定することで

atakana

2週間前

2
論文解説 MotionMaster: Training-free Camera MotionTransfer For Video Generation

2

atakana

2週間前
論文解説 4M-21: An Any-to-Any Vision Modelfor Tens of Tasks and Modalities

ひとことまとめ概要Any to Anyの研究は以前から行われていたが、使用されているモーダル数が少なく変換に制限があった。そこでSAMや4DHumansなどの疑似ラベルや画像のメタデータやカラーパレットなどのモダリティを追加した。既存のモデルよりも性能の低下なしに3倍多くのタスクやモダリティを解けることを示した提案手法提案手法は4M(https://arxiv.org/pdf/2312.06647) の事前学習手法をそのまま用いている。モデルの構造などの変更はせず、モ

atakana

3週間前

2
論文解説 4M-21: An Any-to-Any Vision Modelfor Tens of Tasks and Modalities

2

atakana

3週間前
論文解説 An Image is Worth 32 Tokensfor Reconstruction and Generation

ひとこと要約概要画像を離散トークンに変換する手法はVQGANが主流であるが、圧縮倍率はそれほど高くない。一般的に使われるVQGANは256×256の画像1枚であれば16×16=256個の離散値に変換されるこれはCNNの構造を利用したボトルネック構造のAutoEncoderに離散値化処理を追加した形式であることに起因するが、Transformerを利用し情報を圧縮したトークンだけdecoderに伝えることで32トークンという極めて少ないトークン数で画像を表現できるようにし

atakana

3週間前

1
論文解説 An Image is Worth 32 Tokensfor Reconstruction and Generation

1

atakana

3週間前
論文解説　ReNO: Enhancing One-step Text-to-Image Models through Reward-based Noise Optimization

ひとことまとめ概要拡散モデルは主流な画像生成手法の1つで、画像をランダムにノイズを加え、そのノイズを予測することでモデルの学習を行う。また、画像生成時はランダムなノイズ画像から少しづつ画像を取り除くことで画像を生成する。生成品質は高いが、生成に時間がかかる問題があったそこで、少ないステップ数で高品質な画像を生成する手法が開発された。数ステップで推論できるものや、1ステップで推論できるモデルの研究が盛んにおこなわれている。しかしながら複雑なプロンプトに沿った生成が

atakana

1か月前

1
論文解説　ReNO: Enhancing One-step Text-to-Image Models through Reward-based Noise Optimization

1

atakana

1か月前
論文解説 Stable-Pose: Leveraging Transformers forPose-Guided Text-to-Image Generation

ひとこと要約概要StableDiffusionのようなT2IモデルはControlNetのような追加条件を与えることで条件に沿ったきれいな画像を生成できるしかし、人の側面や背面など難しいポーズの場合は正しく生成できない問題が多く発生するそこで、独自のViTをControlNetの前に追加することで高い精度を実現した提案手法提案手法はControlNet(StableDiffusionのEncoderのみ)にViTをつけたような構成になる。ControlNetとの

atakana

1か月前

2
論文解説 Stable-Pose: Leveraging Transformers forPose-Guided Text-to-Image Generation

2

atakana

1か月前
論文解説 StarGAN v2

ひとことまとめ関連技術Cycle GAN 複数のペアになっていない画像からドメイン間の変換を行うモデル例えばシマウマ⇔ウマの変換であれば、シマウマの画像とウマの画像をそれぞれ同じくらいの量用意すれば学習ができるモデルの学習自体の理論は単純で、ドメイン変換X→Yを行うモデルGと、ドメイン変換Y→Xを行うモデルの2つを用意して、それぞれのドメイン(例えばX) からもう一方のドメイン(Y)に変換し、再度元のドメイン(X)に変換したときに元のデータになるように学習すれば良

atakana

1か月前
論文解説 StarGAN v2

atakana

1か月前
論文解説　MotionFollower: Editing Video Motion viaLightweight Score-Guided Diffusion

ひとことまとめベースとなる動画(Source Video)とモーションの参考となる動画(Target Video)から、ベース動画の人物を参考のモーション通りに動かす方法提案モデルの生成例 Animate Anyoneなどの手法はベースとなる人物のデータは画像データであり、提案手法はベースとなるデータが動画データとして入力される点が異なる提案手法Pose Controller (PoCtr) Pose Controller (PoCtr) はポーズとなる情報を処

atakana

1か月前

1
論文解説　MotionFollower: Editing Video Motion viaLightweight Score-Guided Diffusion

1

atakana

1か月前

最近の記事

論文解説 LivePortrait: Efficient Portrait Animation with Stitching and Retargeting Control

論文解説 StableNormal: Reducing Diffusion Variance for Stable and Sharp Normal

論文解説 AnyControl: Create Your Artwork with VersatileControl on Text-to-Image Generation

論文解説 Style-NeRF2NeRF: 3D Style Transfer From Style-Aligned Multi-View Images

論文解説 LivePortrait: Efficient Portrait Animation with Stitching and Retargeting Control

論文解説 StableNormal: Reducing Diffusion Variance for Stable and Sharp Normal

論文解説 AnyControl: Create Your Artwork with VersatileControl on Text-to-Image Generation

論文解説 Style-NeRF2NeRF: 3D Style Transfer From Style-Aligned Multi-View Images

論文解説 MotionMaster: Training-free Camera MotionTransfer For Video Generation

論文解説 MotionMaster: Training-free Camera MotionTransfer For Video Generation

論文解説 4M-21: An Any-to-Any Vision Modelfor Tens of Tasks and Modalities

論文解説 4M-21: An Any-to-Any Vision Modelfor Tens of Tasks and Modalities

論文解説 An Image is Worth 32 Tokensfor Reconstruction and Generation

論文解説 An Image is Worth 32 Tokensfor Reconstruction and Generation

論文解説 ReNO: Enhancing One-step Text-to-Image Models through Reward-based Noise Optimization

論文解説 ReNO: Enhancing One-step Text-to-Image Models through Reward-based Noise Optimization

論文解説 Stable-Pose: Leveraging Transformers forPose-Guided Text-to-Image Generation

論文解説 Stable-Pose: Leveraging Transformers forPose-Guided Text-to-Image Generation

論文解説 StarGAN v2

論文解説 StarGAN v2

論文解説 MotionFollower: Editing Video Motion viaLightweight Score-Guided Diffusion

論文解説 MotionFollower: Editing Video Motion viaLightweight Score-Guided Diffusion

論文解説　AnyControl: Create Your Artwork with VersatileControl on Text-to-Image Generation

論文解説　AnyControl: Create Your Artwork with VersatileControl on Text-to-Image Generation

論文解説　ReNO: Enhancing One-step Text-to-Image Models through Reward-based Noise Optimization

論文解説　ReNO: Enhancing One-step Text-to-Image Models through Reward-based Noise Optimization

論文解説　MotionFollower: Editing Video Motion viaLightweight Score-Guided Diffusion

論文解説　MotionFollower: Editing Video Motion viaLightweight Score-Guided Diffusion