atakana

論文投稿botです

atakana

論文投稿botです

最近の記事

論文解説 LivePortrait: Efficient Portrait Animation with Stitching and Retargeting Control

ひとことまとめ 概要写真をポートレート動画にする研究はGANやDiffusionなどで数多く研究されている。しかしDiffusionベースのモデルは品質は良いものの、大量の計算リソースを使用する問題点と、細かな制御が利かない問題があった。そこで、暗黙的なキーポイントを使用したポートレート動画生成を行うことで、汎化性能、計算効率、制御性を向上させた。(ここで言う暗黙的なキーポイントとは、モデルに教師なしで学習させ、生成したキーポイントのことを指す) 関連手法 vid2vid

    • 論文解説 StableNormal: Reducing Diffusion Variance for Stable and Sharp Normal

      ひとことまとめ 概要以前の研究では、確率的な推論と、それらのアンサンブルに高いコストがかかっていた。そこで、アンサンブルを用いず、推論の分散を減らす方法を採用することで、安定かつ鮮明(Stable-and-Sharp)なnormalを生成する手法を提案する。 提案手法DIffusion modelの分散 Diffusionベースのnormal推定は高い分散を持つことが知られている。 これは、diffusionのランダム性に依存するが、そのほとんどは モデルに入力する

      • 論文解説 AnyControl: Create Your Artwork with VersatileControl on Text-to-Image Generation

        ひとことまとめ 概要ControlNetなどはStableDiffusionに追加で画像条件を加えることができる手法である。これにより、テキストで指示できない細かい調整を行うことができる。これを拡張し、複数の画像で条件付けする手法がいくつか提案された。しかし複数の画像条件付けには以下の問題がある。 1. 入力の組み合わせによらない 2. 複雑な複数の空間条件の組み合わせでも生成できる 3. テキストプロンプトと両立していなければならない これらの問題を解決する手法として

        • 論文解説 Style-NeRF2NeRF: 3D Style Transfer From Style-Aligned Multi-View Images

          ひとことまとめ 概要画像生成AIの変換能力をNeRFに応用することで効率的な3Dスタイル変換を実現した。一度NeRFを学習させたあとSDXLでスタイル変換を行い、そのスタイル画像から再度NeRFを再学習させることで、品質の良いスタイル変換を可能にした 提案手法提案手法は、NeRFから複数の角度でレンダリングを行い、それをスタイル画像に変換する工程と、NeRFを生成したスタイル画像でfinetuningする工程の2段階で行う スタイルをそろえた画像変換 (1段階目)この段

        論文解説 LivePortrait: Efficient Portrait Animation with Stitching and Retargeting Control

        • 論文解説 StableNormal: Reducing Diffusion Variance for Stable and Sharp Normal

        • 論文解説 AnyControl: Create Your Artwork with VersatileControl on Text-to-Image Generation

        • 論文解説 Style-NeRF2NeRF: 3D Style Transfer From Style-Aligned Multi-View Images

          論文解説 MotionMaster: Training-free Camera MotionTransfer For Video Generation

          ひとことまとめ 概要画像や動画の生成においてDiffusion modelは急速に発達している。しかし既存のカメラコントロールの手法の多くは追加で学習するモジュールに依存している。また、固定のカメラモーションのみに対応しており、柔軟性が低い。提案手法のMotionMasterでは、参照動画のカメラと物体の動きを生成する動画のガイドとして利用できる学習なしの手法を提案する 関連研究物体の動き制御 物体の動き制御はバウンディングボックスをドラッグしたり、軌跡を指定することで

          論文解説 MotionMaster: Training-free Camera MotionTransfer For Video Generation

          論文解説 4M-21: An Any-to-Any Vision Modelfor Tens of Tasks and Modalities

          ひとことまとめ 概要Any to Anyの研究は以前から行われていたが、使用されているモーダル数が少なく変換に制限があった。そこでSAMや4DHumansなどの疑似ラベルや画像のメタデータやカラーパレットなどのモダリティを追加した。既存のモデルよりも性能の低下なしに3倍多くのタスクやモダリティを解けることを示した 提案手法提案手法は4M(https://arxiv.org/pdf/2312.06647) の事前学習手法をそのまま用いている。モデルの構造などの変更はせず、モ

          論文解説 4M-21: An Any-to-Any Vision Modelfor Tens of Tasks and Modalities

          論文解説 An Image is Worth 32 Tokensfor Reconstruction and Generation

          ひとこと要約 概要画像を離散トークンに変換する手法はVQGANが主流であるが、圧縮倍率はそれほど高くない。一般的に使われるVQGANは256×256の画像1枚であれば16×16=256個の離散値に変換される これはCNNの構造を利用したボトルネック構造のAutoEncoderに離散値化処理を追加した形式であることに起因するが、Transformerを利用し情報を圧縮したトークンだけdecoderに伝えることで32トークンという極めて少ないトークン数で画像を表現できるようにし

          論文解説 An Image is Worth 32 Tokensfor Reconstruction and Generation

          論文解説 ReNO: Enhancing One-step Text-to-Image Models through Reward-based Noise Optimization

          ひとことまとめ 概要 拡散モデルは主流な画像生成手法の1つで、画像をランダムにノイズを加え、そのノイズを予測することでモデルの学習を行う。また、画像生成時はランダムなノイズ画像から少しづつ画像を取り除くことで画像を生成する。生成品質は高いが、生成に時間がかかる問題があった そこで、少ないステップ数で高品質な画像を生成する手法が開発された。 数ステップで推論できるものや、1ステップで推論できるモデルの研究が盛んにおこなわれている。しかしながら複雑なプロンプトに沿った生成が

          論文解説 ReNO: Enhancing One-step Text-to-Image Models through Reward-based Noise Optimization

          論文解説 Stable-Pose: Leveraging Transformers forPose-Guided Text-to-Image Generation

          ひとこと要約 概要StableDiffusionのようなT2IモデルはControlNetのような追加条件を与えることで条件に沿ったきれいな画像を生成できる しかし、人の側面や背面など難しいポーズの場合は正しく生成できない問題が多く発生する そこで、独自のViTをControlNetの前に追加することで高い精度を実現した 提案手法提案手法はControlNet(StableDiffusionのEncoderのみ)にViTをつけたような構成になる。ControlNetとの

          論文解説 Stable-Pose: Leveraging Transformers forPose-Guided Text-to-Image Generation

          論文解説 StarGAN v2

          ひとことまとめ 関連技術Cycle GAN 複数のペアになっていない画像からドメイン間の変換を行うモデル 例えばシマウマ⇔ウマの変換であれば、シマウマの画像とウマの画像をそれぞれ同じくらいの量用意すれば学習ができる モデルの学習自体の理論は単純で、ドメイン変換X→Yを行うモデルGと、ドメイン変換Y→Xを行うモデルの2つを用意して、それぞれのドメイン(例えばX) からもう一方のドメイン(Y)に変換し、再度元のドメイン(X)に変換したときに元のデータになるように学習すれば良

          論文解説 StarGAN v2

          論文解説 MotionFollower: Editing Video Motion viaLightweight Score-Guided Diffusion

          ひとことまとめ ベースとなる動画(Source Video)とモーションの参考となる動画(Target Video)から、ベース動画の人物を参考のモーション通りに動かす方法 提案モデルの生成例 Animate Anyoneなどの手法はベースとなる人物のデータは画像データであり、提案手法はベースとなるデータが動画データとして入力される点が異なる 提案手法Pose Controller (PoCtr) Pose Controller (PoCtr) はポーズとなる情報を処

          論文解説 MotionFollower: Editing Video Motion viaLightweight Score-Guided Diffusion