MoE Large Language Model Sparse Model
Arcee Trinity Large Technical Report
Paper ID: 2602.17004 โข 9 Upvotes
๐ ํต์ฌ ์์ฝ
Arcee์์ ๊ฐ๋ฐํ MoE ๋ชจ๋ธ Trinity ์๋ฆฌ์ฆ(Large, Mini, Nano)๋ฅผ ๊ณต๊ฐํ์ผ๋ฉฐ, ํนํ Large ๋ชจ๋ธ์ ์๋ก์ด ๋ก๋ ๋ฐธ๋ฐ์ฑ ์ ๋ต SMEBU๋ฅผ ํตํด ์์ ์ ์ธ ํ์ต์ ๋ณด์๋ค. ๊ฐ๋ฐ์๋ค์ Hugging Face์์ ๋ชจ๋ธ์ ๋ค์ด๋ก๋ํ์ฌ ์ฌ์ฉํ ์ ์๋ค.
๐ ์์ธ ๋ด์ฉ
์ต๊ทผ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ ํจ์จ์ฑ์ ๋์ด๊ธฐ ์ํด Mixture-of-Experts (MoE) ๋ชจ๋ธ์ด ์ฃผ๋ชฉ๋ฐ๊ณ ์๋ค. Arcee๋ 400B ํ๋ผ๋ฏธํฐ์ Trinity Large๋ฅผ ํฌํจํ Trinity ์๋ฆฌ์ฆ๋ฅผ ๊ฐ๋ฐํ์ฌ ๊ณต๊ฐํ๋ค. ์ด ๋ชจ๋ธ๋ค์ interleaved local/global attention, gated attention ๋ฑ์ ํ๋์ ์ธ ๊ตฌ์กฐ๋ฅผ ์ฑํํ์ผ๋ฉฐ, Trinity Large๋ SMEBU๋ผ๋ ์๋ก์ด MoE ๋ก๋ ๋ฐธ๋ฐ์ฑ ์ ๋ต์ ์ฌ์ฉํ๋ค. Muon ์ตํฐ๋ง์ด์ ๋ฅผ ์ฌ์ฉํ์ฌ ํ์ตํ์ผ๋ฉฐ, Trinity Large๋ 17์กฐ ํ ํฐ์ผ๋ก ํ์ต๋์๋ค. ํด๋น ๋ชจ๋ธ๋ค์ Hugging Face์์ ์ฌ์ฉํ ์ ์๋ค.
๐ ์ฃผ์ ๋ด์ฉ (Key Points)
- 400B ํ๋ผ๋ฏธํฐ์ MoE ๋ชจ๋ธ Trinity Large ๊ณต๊ฐ (token ๋น 13B ํ์ฑํ)
- ์๋ก์ด MoE ๋ก๋ ๋ฐธ๋ฐ์ฑ ์ ๋ต Soft-clamped Momentum Expert Bias Updates (SMEBU) ์ ์
- Hugging Face๋ฅผ ํตํด ๋ชจ๋ธ ์ฒดํฌํฌ์ธํธ ์ ๊ณต
๐ก ์ค๋ฌด์ ๊ฐ์น (Relevance)
MoE ๋ชจ๋ธ์ ํ์ฉํ์ฌ ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ํค์ฐ๋ฉด์๋ ํจ์จ์ ์ธ ์ถ๋ก ์ด ๊ฐ๋ฅํ๋ค. ํนํ SMEBU๋ MoE ๋ชจ๋ธ ํ์ต์ ์์ ์ฑ์ ๋์ด๋ ๋ฐ ๊ธฐ์ฌํ ์ ์์ผ๋ฉฐ, ๊ฐ๋ฐ์๋ค์ ํด๋น ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก ๋ค์ํ ์คํ ๋ฐ fine-tuning์ ์งํํ ์ ์๋ค.
โ ์ถ์ฒ ์ก์ (Actionable Items)
- Hugging Face์์ Trinity Large ๋ชจ๋ธ ๋ค์ด๋ก๋ ํ ์ฑ๋ฅ ํ ์คํธ
- SMEBU ๋ก๋ ๋ฐธ๋ฐ์ฑ ์ ๋ต์ ๊ธฐ์กด MoE ๋ชจ๋ธ์ ์ ์ฉํ์ฌ ์ฑ๋ฅ ๊ฐ์ ์๋
- Trinity ์๋ฆฌ์ฆ ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก ํน์ task์ fine-tuning ์งํ