Taylor-Calibrate: Principled Initialization for Hybrid Linear Attention Distillation
Paper ID: 2606.16429 โข 2 Upvotes
Model Distillation Linear Attention Transformer Efficient Inference Inference Distillation Safety
๐ ํต์ฌ ์์ฝ
์ฌ์ ํ์ต๋ Transformer๋ฅผ ํจ์จ์ ์ธ Hybrid Linear Attention ๋ชจ๋ธ๋ก ๋ณํํ ๋ ๋ฐ์ํ๋ ์ด๊ธฐํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ Taylor ๊ธ์ ๊ธฐ๋ฐ์ ์ ๋ฐ ์ด๊ธฐํ ๊ธฐ๋ฒ
๐ ์์ธ ๋ด์ฉ
์ต๊ทผ ๊ธด ๋ฌธ๋งฅ ์ฒ๋ฆฌ๋ฅผ ์ํด Transformer๋ฅผ Hybrid Linear Attention ๋ชจ๋ธ๋ก ๋ณํํ๋ ค๋ ์๋๊ฐ ๋๊ณ ์์ผ๋, ๋จ์ ๊ฐ์ค์น ๋ณต์ฌ ๋ฐฉ์์ ๋ชจ๋ธ์ ๋์ญํ(dynamics) ๋ถ์ผ์น๋ก ์ธํด ์ฑ๋ฅ ์ ํ๋ฅผ ์ผ๊ธฐํฉ๋๋ค. ๊ธฐ์กด ๋ฐฉ์์ ๋ชจ๋ธ์ด ํ์ต ์ด๊ธฐ ๋จ๊ณ์์ ์ด๊ธฐํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๋ฐ ๋๋ฌด ๋ง์ ํ ํฐ์ ์๋ชจํ๋ ๋นํจ์จ์ฑ์ด ์กด์ฌํฉ๋๋ค. ๋ณธ ๋
ผ๋ฌธ์ Taylor ๊ธ์๋ฅผ ํ์ฉํด ๊ต์ฌ(Teacher) ๋ชจ๋ธ์ ์ดํ
์
ํต๊ณ๋์ ๋ถ์ํ๊ณ , ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ์(Student) ๋ชจ๋ธ์ ๊ฐ์ค์น์ ๊ฒ์ดํธ๋ฅผ ์ค์ ํ๋ Taylor-Calibrate ๊ธฐ๋ฒ์ ์ ์ํฉ๋๋ค. ์ด ๋ฐฉ๋ฒ์ ๊ฐ ๋ ์ด์ด๋ฅผ ๊ต์ฌ ๋ชจ๋ธ์ ์ถ๋ ฅ์ ๋ง์ถ๋ ์งง์ ์ ๋ ฌ ๋จ๊ณ๋ฅผ ํฌํจํฉ๋๋ค. ์คํ ๊ฒฐ๊ณผ, ์ ์ ๊ธฐ๋ฒ์ ์ ๋ก์ท ์ฑ๋ฅ์ ๋ํญ ํฅ์์์ผฐ์ผ๋ฉฐ ๊ธฐ์กด ๋ฐฉ์ ๋๋น ํจ์ฌ ์ ์ ํ์ต ํ ํฐ๋ง์ผ๋ก๋ ๋ชฉํ ์ฑ๋ฅ์ ๋๋ฌํ ์ ์์์ ์
์ฆํ์ต๋๋ค.
๐ ์ฃผ์ ๋ด์ฉ (Key Points)
- Taylor ๊ธ์ ๊ธฐ๋ฐ์ ์ ๋ฐํ ์ด๊ธฐํ๋ก ํ์ ๋ชจ๋ธ์ ๋์ญํ(decay, write, output-gate) ์ต์ ํ
- ๊ต์ฌ ๋ชจ๋ธ์ ์ดํ ์ ํต๊ณ๋์ ํ์ฉํ ๊ฐ์ค์น ๋ฐ ๊ฒ์ดํธ ์ค์ ์๊ณ ๋ฆฌ์ฆ ๊ฐ๋ฐ
- ํ์ต ํ ํฐ ์๋ชจ๋์ ํ๊ธฐ์ ์ผ๋ก ์ค์ด๋ฉด์๋ ๋์ ์ ๋ก์ท ๋ฐ ๋ณต๊ตฌ ์ฑ๋ฅ ๋ฌ์ฑ
๐ก ์ค๋ฌด์ ๊ฐ์น (Relevance)
๊ธฐ์กด ๊ฑฐ๋ ๋ชจ๋ธ(Transformer)์ ํจ์จ์ ์ธ ์ถ๋ก ์ฉ ๋ชจ๋ธ(Linear Attention)๋ก ์ ํํ ๋, ํ์ต ๋น์ฉ์ ์ค์ด๊ณ ์ฑ๋ฅ ์์ค์ ์ต์ํํ๋ ์ค์ง์ ์ธ ๊ฐ์ด๋๋ฅผ ์ ๊ณตํฉ๋๋ค.
โ ์ถ์ฒ ์ก์ (Actionable Items)
- ๊ธฐ์กด Transformer ๋ชจ๋ธ์ Gated DeltaNet ๊ตฌ์กฐ๋ก ๋ณํ ์ ๋จ์ ๋ณต์ฌ ๋ฐฉ์๊ณผ Taylor-Calibrate ๋ฐฉ์์ ์ฑ๋ฅ ๋น๊ต ์คํ
- ๋ค์ํ ๋ ์ด์ด ์ ์ง ์ ์ฑ (retained-layer policies)์ ๋ฐ๋ฅธ ์ด๊ธฐํ ์์ ์ฑ ํ ์คํธ
- ํ์ต ํ ํฐ ์ ๋ณํ์ ๋ฐ๋ฅธ ์๋ ด ์๋ ๋ฐ ์ต์ข ์ฑ๋ฅ ์๊ด๊ด๊ณ ๋ถ์