Rethinking Shrinkage Bias in LLM FP4 Pretraining: Geometric Origin, Systemic Impact, and UFP4 Recipe
Paper ID: 2606.20381 โข 1 Upvotes
LLM Pretraining Quantization FP4 Numerical Stability Optimization
๐ ํต์ฌ ์์ฝ
FP4 ์ ๋ฐ๋ ํ์ต ์ ๋ฐ์ํ๋ ์์น์ ํธํฅ(Shrinkage Bias)์ ์์ธ์ ๊ท๋ช
ํ๊ณ , ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ๊ท ์ผ ๊ทธ๋ฆฌ๋ ๊ธฐ๋ฐ์ UFP4 ํ์ต ๋ ์ํผ๋ฅผ ์ ์ํจ
๐ ์์ธ ๋ด์ฉ
LLM ์ฌ์ ํ์ต ์ ๋ฉ๋ชจ๋ฆฌ ๋ฐ ์ฐ์ฐ ๋น์ฉ ์ ๊ฐ์ ์ํด FP4 ํ์์ ํ์ฉํ๋ ค๋ ์๋๊ฐ ๋๊ณ ์์ผ๋, ํ์ฌ์ E2M1 ์ค์ฌ ๋ฐฉ์์ ์์น์ ๋ถ์์ ์ฑ์ ์ผ๊ธฐํฉ๋๋ค. ์ฐ๊ตฌ์ง์ E2M1๊ณผ ๊ฐ์ ๋น๊ท ์ผ ํฌ๋งท์ด ๊ธฐํํ์ ๋น๋์นญ์ฑ์ผ๋ก ์ธํด ๋ฐ์ํ๋ 'Shrinkage Bias(์์ถ ํธํฅ)'๊ฐ ์ธต์ ๊ฑฐ์น๋ฉฐ ๋์ ๋๋ค๋ ์ ์ ๋ฐ๊ฒฌํ์ต๋๋ค. ์ด๋ฌํ ํธํฅ์ RHT(Random Hadamard Transform)์ ๊ฒฐํฉํ ๋ ๋์ฑ ์ฆํญ๋์ด ํ์ต ๋ถ์์ ์ฑ์ ์ด๋ํฉ๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๊ท ์ผํ ๊ทธ๋ฆฌ๋๋ฅผ ์ฌ์ฉํ๋ E1M2/INT4 ๋ฐฉ์์ด ๋ ํจ๊ณผ์ ์์ ์
์ฆํ๊ณ , RHT๋ฅผ ํ์ฉํ๋ฉด์๋ ํธํฅ์ ์ต์ํํ๋ UFP4 ๋ ์ํผ๋ฅผ ์ ์ํฉ๋๋ค. ์คํ ๊ฒฐ๊ณผ, UFP4๋ ๋๊ท๋ชจ MoE ๋ชจ๋ธ์ ํฌํจํ ๋ค์ํ ๊ท๋ชจ์ ์ฌ์ ํ์ต์์ ๊ธฐ์กด E2M1 ๋ฐฉ์๋ณด๋ค ๋ฎ์ ์์ค(loss)์ ๊ธฐ๋กํ๋ฉฐ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
๐ ์ฃผ์ ๋ด์ฉ (Key Points)
- E2M1 ํฌ๋งท์ ๊ธฐํํ์ ๋น๋์นญ์ฑ์ผ๋ก ์ธํ 'Shrinkage Bias' ํ์ ๊ท๋ช
- ๋น๊ท ์ผ ํฌ๋งท์ด RHT์ ๊ฒฐํฉํ ๋ ๋ฐ์ํ๋ ์์น์ ๋ถ์์ ์ฑ ์์ธ ๋ถ์
- ๊ท ์ผ ๊ทธ๋ฆฌ๋(E1M2/INT4) ๊ธฐ๋ฐ์ UFP4 ํ์ต ๋ ์ํผ ์ ์ ๋ฐ ์ฑ๋ฅ ๊ฒ์ฆ
๐ก ์ค๋ฌด์ ๊ฐ์น (Relevance)
์ฐจ์ธ๋ ์ ์ ๋ฐ๋(4-bit) ํ๋์จ์ด ๊ฐ์๊ธฐ๋ฅผ ํ์ฉํ LLM ํ์ต ์, ๋จ์ํ ํฌ๋งท ์ ์ฉ์ ๋์ด ์์น์ ์์ ์ฑ์ ํ๋ณดํ๊ธฐ ์ํ ์ต์ ์ ๋ฐ์ดํฐ ํฌ๋งท๊ณผ ํ์ต ์ ๋ต์ ์ ์ํฉ๋๋ค.
โ ์ถ์ฒ ์ก์ (Actionable Items)
- ํ์ฌ ์ฌ์ฉ ์ค์ธ FP4 ๊ธฐ๋ฐ ํ์ต ์ํฌ๋ก๋์ RHT ์ ์ฉ ์ ๋ฐ์ํ๋ ์์น์ ๋ณํ ๊ด์ฐฐ
- E2M1๊ณผ E1M2/INT4 ํฌ๋งท ๊ฐ์ ํ์ต ์์ ์ฑ ๋ฐ ์๋ ด ์๋ ๋น๊ต ์คํ
- ๋ชจ๋ธ ๊ท๋ชจ๋ณ(Dense vs MoE) ์ ์ ๋ฐ๋ ํ์ต ์์ Loss ๋ณํ ์ถ์ด ๋ถ์