見出し画像

Scalable High-Resolution Pixel-Space Image Synthesis with Hourglass Diffusion Transformers の雑な理解

https://crowsonkb.github.io/hourglass-diffusion-transformers/ を読みました

一言でいうと「Stable Diffusionが潜在空間でやっていた学習を、ピクセル単位で短時間かつ詳細かつ少ないパラメーターで正確に学習できる仕組み」を作ったということですね。 これによる恩恵は、短時間で高精細な画像が得られるし、潜在特有のぶっ飛んだ画像も作られづらいってことっぽいです。

※潜在特有のぶっ飛んだ画像も作られづらいという表現は論文中には登場しない、私の憶測です。

Stable Diffusion が Latent Space(潜在空間)を利用していますが HDiT は Pixel Space(変に潜在空間にマッピングせずに1ピクセル単位) を学習していました。 Stable Diffusion は U-net のあとに VAE を挟むことで計算量を落としていますが、それゆえに画像の詳細(デティール)が落ちます。 U-net の似た構造で Transformer を入れ VAE を代替することで、ピクセル単位の学習(デティールも落とさない)が可能になります。 ここまで従来研究。 ただこれだと学習がピクセルの二乗で増えるので、アテンション機構を2つ追加しピクセルに比例する計算量に抑えて再現性も高めた。これがこの論文の一番すごいところ。

この記事が気に入ったらサポートをしてみませんか?