Diffusion Model Attention Sparsity Video Generation Optimization Video Distillation
SpargeAttention2: Trainable Sparse Attention via Hybrid Top-k+Top-p Masking and Distillation Fine-Tuning
Paper ID: 2602.13515 โข 21 Upvotes
๐ ํต์ฌ ์์ฝ
๋น๋์ค ํ์ฐ ๋ชจ๋ธ์์ attention ์ฐ์ฐ๋์ 95%๊น์ง ์ค์ด๋ฉด์ ์์ฑ ํ์ง์ ์ ์งํ๋ SpargeAttention2๋ฅผ ์ ์, ๊ธฐ์กด sparse attention ๋ฐฉ๋ฒ๋ค์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์.
๐ ์์ธ ๋ด์ฉ
์ต๊ทผ ํ์ฐ ๋ชจ๋ธ์์ attention ์ฐ์ฐ๋์ ์ค์ด๊ธฐ ์ํ sparse attention ์ฐ๊ตฌ๊ฐ ํ๋ฐํ๋ค. ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ Top-k๋ Top-p ๋ง์คํน ๊ท์น์ ํ๊ณ๋ฅผ ๋ณด์๊ณ , fine-tuning ๊ณผ์ ์์ ์์ฑ ํ์ง ์ ํ๊ฐ ๋ฐ์ํ๊ธฐ๋ ํ๋ค. ๋ณธ ์ฐ๊ตฌ์์๋ ์ด๋ฌํ ๋ฌธ์ ์ ์ ๋ถ์ํ๊ณ , Top-k์ Top-p๋ฅผ ๊ฒฐํฉํ ํ์ด๋ธ๋ฆฌ๋ ๋ง์คํน ๊ท์น์ ์ ์ํ์ฌ ๋์ ํฌ์์ฑ์์๋ ์์ ์ ์ธ ๋ง์คํน์ ๊ฐ๋ฅํ๊ฒ ํ๋ค. ๋ํ distillation ๊ธฐ๋ฐ fine-tuning objective๋ฅผ ํตํด sparse attention fine-tuning ๊ณผ์ ์์ ์์ฑ ํ์ง์ ๋ณด์กดํ๋ค. ์คํ ๊ฒฐ๊ณผ, SpargeAttention2๋ ๋น๋์ค ํ์ฐ ๋ชจ๋ธ์์ 95%์ attention sparsity๋ฅผ ๋ฌ์ฑํ๋ฉด์๋ ์์ฑ ํ์ง์ ์ ์งํ์ฌ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค.
๐ ์ฃผ์ ๋ด์ฉ (Key Points)
- Top-k์ Top-p ๋ง์คํน์ ์คํจ ์์ธ ๋ถ์ ๋ฐ ํ์ด๋ธ๋ฆฌ๋ ๋ง์คํน ๊ท์น ์ ์
- Distillation ๊ธฐ๋ฐ fine-tuning objective๋ฅผ ํตํ ์์ฑ ํ์ง ๋ณด์กด
- ๋น๋์ค ํ์ฐ ๋ชจ๋ธ์์ 95% attention sparsity ๋ฐ 16.2๋ฐฐ ์๋ ํฅ์ ๋ฌ์ฑ
๐ก ์ค๋ฌด์ ๊ฐ์น (Relevance)
๋น๋์ค ์์ฑ ๋ชจ๋ธ์ ์ถ๋ก ์๋๋ฅผ ํฌ๊ฒ ํฅ์์ํค๊ณ , ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ์ค์ฌ ๋ ํฐ ๋ชจ๋ธ์ ํ์ตํ๊ฑฐ๋ ๋ฐฐํฌํ๋ ๋ฐ ๋์์ด ๋ ์ ์๋ค.
โ ์ถ์ฒ ์ก์ (Actionable Items)
- ๊ธฐ์กด ๋น๋์ค ํ์ฐ ๋ชจ๋ธ์ SpargeAttention2 ์ ์ฉํ์ฌ ์ฑ๋ฅ ํฅ์ ๋ฐ ๋ฉ๋ชจ๋ฆฌ ์ ์ฝ ํจ๊ณผ ํ์ธ
- SpargeAttention2์ ํ์ด๋ธ๋ฆฌ๋ ๋ง์คํน ๊ท์น์ ๋ค๋ฅธ attention ๊ธฐ๋ฐ ๋ชจ๋ธ์ ์ ์ฉํ์ฌ ํจ๊ณผ ๊ฒ์ฆ
- Distillation ๊ธฐ๋ฐ fine-tuning objective๋ฅผ ๋ค๋ฅธ sparse attention ๋ฐฉ๋ฒ๊ณผ ๊ฒฐํฉํ์ฌ ์ฑ๋ฅ ๊ฐ์ ์๋