Diffusion Model Latent Representation Image Generation Video Generation Vision
Unified Latents (UL): How to train your latents
Paper ID: 2602.17270 โข 19 Upvotes
๐ ํต์ฌ ์์ฝ
Unified Latents (UL) ํ๋ ์์ํฌ๋ diffusion prior์ diffusion model์ ์ฌ์ฉํ์ฌ ์ ์ฌ ํํ ํ์ต ์ฑ๋ฅ์ ๋์ด๊ณ , ImageNet-512 ๋ฐ Kinetics-600 ๋ฐ์ดํฐ์
์์ SOTA๋ฅผ ๋ฌ์ฑํ์ฌ ์ด๋ฏธ์ง ๋ฐ ๋น๋์ค ์์ฑ ๋ชจ๋ธ์ ํจ์จ์ฑ๊ณผ ํ์ง์ ํฅ์์ํฌ ์ ์๋ค.
๐ ์์ธ ๋ด์ฉ
์ ์ฌ ํํ ํ์ต์ ์ด๋ฏธ์ง ๋ฐ ๋น๋์ค ์์ฑ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํฐ ์ํฅ์ ๋ฏธ์น๋ค. ๊ธฐ์กด ๋ฐฉ์์ ํ์ต ํจ์จ์ฑ์ด ๋ฎ๊ฑฐ๋ ์์ฑ ํ์ง์ด ๋จ์ด์ง๋ ๋ฌธ์ ๊ฐ ์์๋ค. ๋ณธ ๋
ผ๋ฌธ์์๋ diffusion prior์ diffusion model๋ก ๊ณต๋ ์ ๊ทํ๋ ์ ์ฌ ํํ์ ํ์ตํ๋ Unified Latents (UL) ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. UL์ ์ธ์ฝ๋์ ์ถ๋ ฅ ๋
ธ์ด์ฆ๋ฅผ prior์ ์ต์ ๋
ธ์ด์ฆ ๋ ๋ฒจ์ ์ฐ๊ฒฐํ์ฌ ๊ฐ๋จํ๋ฉด์๋ tightํ bitrate upper bound๋ฅผ ์ ๊ณตํ๋ ํ์ต ๋ชฉํ๋ฅผ ์ฌ์ฉํ๋ค. ImageNet-512์์ FID 1.4๋ฅผ ๋ฌ์ฑํ๋ฉฐ, Stable Diffusion ์ ์ฌ ๊ณต๊ฐ ๊ธฐ๋ฐ ๋ชจ๋ธ๋ณด๋ค ์ ์ FLOPs๋ก ๋์ ์ฌ๊ตฌ์ฑ ํ์ง(PSNR)์ ๋ณด์ธ๋ค. Kinetics-600์์๋ FVD 1.3์ผ๋ก ์๋ก์ด SOTA๋ฅผ ๋ฌ์ฑํ๋ค.
๐ ์ฃผ์ ๋ด์ฉ (Key Points)
- Diffusion prior์ diffusion model์ ํ์ฉํ ์๋ก์ด ์ ์ฌ ํํ ํ์ต ํ๋ ์์ํฌ (UL) ์ ์
- Latent bitrate upper bound๋ฅผ tightํ๊ฒ ์ ๊ณตํ๋ ๊ฐ๋จํ ํ์ต ๋ชฉํ ๊ฐ๋ฐ
- ImageNet-512 ๋ฐ Kinetics-600์์ SOTA ์ฑ๋ฅ ๋ฌ์ฑ (์ ์ FLOPs๋ก ๋์ ํ์ง)
๐ก ์ค๋ฌด์ ๊ฐ์น (Relevance)
UL ํ๋ ์์ํฌ๋ ์ด๋ฏธ์ง ๋ฐ ๋น๋์ค ์์ฑ ๋ชจ๋ธ ๊ฐ๋ฐ ์ ํ์ต ํจ์จ์ฑ์ ๋์ด๊ณ ์์ฑ ํ์ง์ ํฅ์์ํค๋ ๋ฐ ํ์ฉ๋ ์ ์์ผ๋ฉฐ, ํนํ ์ ํ๋ ์ปดํจํ
์์ ํ๊ฒฝ์์ ๋์ฑ ์ ์ฉํ๋ค.
โ ์ถ์ฒ ์ก์ (Actionable Items)
- UL ํ๋ ์์ํฌ๋ฅผ ๊ธฐ์กด ์ด๋ฏธ์ง/๋น๋์ค ์์ฑ ๋ชจ๋ธ์ ์ ์ฉํ์ฌ ์ฑ๋ฅ ํฅ์ ์คํ
- UL ํ์ต ๋ชฉํ๋ฅผ ๋ค๋ฅธ ์ข ๋ฅ์ ์ ์ฌ ํํ ํ์ต ๋ฐฉ์๊ณผ ๊ฒฐํฉํ์ฌ ์๋ก์ด ๋ฐฉ๋ฒ๋ก ํ์
- UL์ hyperparameter (noise level ๋ฑ) ํ๋์ ํตํด ํน์ ๋ฐ์ดํฐ์ ์ ์ต์ ํ