見出し画像

【論文メモ】Transformerを用いた高速なtxt2img

Muse: Text-To-Image Generation via Masked Generative Transformers

論文リンク: https://arxiv.org/abs/2301.00704
公開日時: Submitted on 2 Jan 2023

概要

  • 離散トークンを使用し、サンプリングの反復回数が少ないため拡散モデルより効率的。

  • 並列デコードを使用するため自己回帰モデルより効率的。

  • 900MパラメータモデルにおいてCC3MでFID score: 6.06。SOTA達成。

  • 4億6000万のテキストと画像のペアで構成されるImagen データセットでトレーニング。

先行研究と比べての優位性

画像生成の速さとクオリティの高さを兼ね揃えている。sdに関しては実測値ではない
感覚的な理解であるが、文字の表現も違和感なく性能の良さを感じる

技術・手法

① Pre-trained Text Encoders

  • LLMから抽出された埋め込みは豊富な視覚的・意味的な概念を持っていると考えられる。LLMによって学習された概念表現は、視覚タスクで学習されたモデルによって学習された概念表現とほぼ線形にマッピング可能であることが、最近の研究で示されている。(Merullo et al., 2022)

  • 故に、Museにおいても、入力テキストキャプションをT5-XXL encoderに通した4096次元の言語埋め込みベクトルを用いている。

② Semantic Tokenization using VQGAN

VQGAN (Esser et al., 2021b) モデルから得られる意味トークンを使用している。

  1. 解像度256x256画像→16×16 latent space のVQGAN

  2. 解像度512x512画像→64×64 latent space のVQGAN

の2つのモデルをトレーニングする。VQGANでは、エンコード後に得られる離散トークンは、低レベルノイズを無視しながら、画像のより高いレベルの意味情報を捕らえることができるとされている。

③ Base Model

  • ①と②のトークナイズ結果を入力とする。すべてのテキスト埋め込みをマスクしないままにして、様々な割合で画像トークンをマスクし、それらを特別な[MASK]トークンに置き換える。

  • 上記をTransformerのinput/hiddenサイズの埋め込みに線形マッピングし、自己注意ブロック、交差注意ブロック、MLPブロックを使用して特徴を抽出する。出力層では、MLPを使用して変換する。各マスク画像埋め込みをロジット集合に変換し、クロスエントロピーの損失を適用する。

  • 学習時には、ベースモデルは各ステップにおいてマスクされたトークンを全て予測するように学習される。推論においては、マスク予測は反復して行われ、品質を大幅に向上させる。

Base Model

④ Super-Res

  • 512x512の解像度を直接推論させるより、段階的なアプローチをすることが合理的であった。

  • ②で作成した2つのモデルを活用する。具体的には、16x16 latent spaceから64x64 latent spaceを「翻訳」する機構を作成することで段階的なアプローチを可能にした。

Super-res

上記の技術といくつかの工夫を用いて4億6000万のテキストと画像のペアで構成される Imagen データセットで1Mstepトレーニングを行っている。これにかかるトレーニング期間は512 コアの TPU-v4 チップで約1週間であった。

有効性の検証

FIDスコアもCLIPスコアも高い。Imagenと同等で、DALL-Eよりよいくらいと述べられている。

議論はある?

Museが苦手なprompt:

  • 長い複数単語のprompt

  • カーディナリティが高いことを示すprompt

    • e.g., “10 wine bottles" → 7本のワインの画像

  • 複数の基数を持つprompt

    • e.g., “4 cats and a team of 3 dogs”

Next Read

この論文で紹介されているいくつかの論文

この記事が気に入ったらサポートをしてみませんか?