Scaling the Horizon, Not the Parameters: Reaching Trillion-Parameter Performance with a 35B Agent
Paper ID: 2606.30616 โข 65 Upvotes
Agent MoE Knowledge Distillation Long-horizon RAG Benchmark Distillation Safety
๐ ํต์ฌ ์์ฝ
35B ๊ท๋ชจ์ MoE ๋ชจ๋ธ๋ก 1T๊ธ ์ฑ๋ฅ์ ๊ตฌํํ๋ '์์ด์ ํธ ํธ๋ผ์ด์ฆ(Agent Horizon)' ํ์ฅ ์ ๋ต ์ ์
๐ ์์ธ ๋ด์ฉ
๊ฑฐ๋ ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ ์๋ฅผ ๋๋ฆฌ๋ ๋์ ์์ด์ ํธ์ ์์
๋ฒ์๋ฅผ ํ์ฅํ์ฌ ์ฑ๋ฅ์ ๋์ด๋ ์ฐ๊ตฌ๋ฅผ ์งํํ์ต๋๋ค. ๊ธฐ์กด์ ํ๋ผ๋ฏธํฐ ์ค์ผ์ผ๋ง ๋ฐฉ์์์ ๋ฒ์ด๋, ๊ธด ์์
๊ฒฝ๋ก(long-horizon)์ ์ด์ง์ ์ธ ๋๋ฉ์ธ ๋ฅ๋ ฅ์ ๊ฒฐํฉํ๋ ๋ฐ ์ง์คํ์ต๋๋ค. ์ด๋ฅผ ์ํด ์ธ๋ถ ์ง์, ํ๋, ๊ด์ฐฐ, ๊ฒ์ฆ ๊ฒฐ๊ณผ๊ฐ ํตํฉ๋ 45K ํ ํฐ ๊ท๋ชจ์ ์ฅ๊ธฐ ๊ถค์ ์ธํ๋ผ๋ฅผ ๊ตฌ์ถํ์ต๋๋ค. ํ์ต์ ์ ๋๋ฉ์ธ SFT, ๋๋ฉ์ธ๋ณ ๊ต์ฌ ๋ชจ๋ธ ํ์ต, ๊ทธ๋ฆฌ๊ณ ๋ค์ค ๊ต์ฌ ๊ธฐ๋ฐ์ ๋๋ฉ์ธ ๋ผ์ฐํ
์จ-ํด๋ฆฌ์ ์ฆ๋ฅ(Distillation)์ 3๋จ๊ณ๋ก ์งํ๋์์ต๋๋ค. ๊ทธ ๊ฒฐ๊ณผ, 35B ๋ชจ๋ธ์ธ Agents-A1์ด Kimi-K2.6์ด๋ DeepSeek-V4-pro์ ๊ฐ์ 1T๊ธ ๋ชจ๋ธ์ ํ์ ํ๋ ๋ฒค์น๋งํฌ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ต๋๋ค.
๐ ์ฃผ์ ๋ด์ฉ (Key Points)
- ํ๋ผ๋ฏธํฐ ํ์ฅ ๋์ ์์ ๊ฒฝ๋ก(Horizon)๋ฅผ ํ์ฅํ์ฌ ํจ์จ์ ์ธ ์ฑ๋ฅ ํ๋ณด
- 45K ํ ํฐ์ ๋ฌํ๋ ์ฅ๊ธฐ ์ง์-ํ๋ ๊ถค์ (Long-horizon trajectory) ์ธํ๋ผ ๊ตฌ์ถ
- ๋ค์ค ๊ต์ฌ ๋๋ฉ์ธ ๋ผ์ฐํ ๋ฐ ์ดํ ์ ๋ ฌ์ ํตํ ๊ณ ํจ์จ ์ง์ ์ฆ๋ฅ ๊ธฐ๋ฒ ์ ์ฉ
๐ก ์ค๋ฌด์ ๊ฐ์น (Relevance)
๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ๋ฌด์์ ํค์ฐ์ง ์๊ณ ๋ ๋ฐ์ดํฐ์ ์ง๊ณผ ์์
๊ฒฝ๋ก์ ๊ธธ์ด๋ฅผ ์ต์ ํํจ์ผ๋ก์จ ๊ณ ์ฑ๋ฅ ์์ด์ ํธ๋ฅผ ๊ตฌ์ถํ ์ ์๋ ์ค์ง์ ์ธ ๋ฐฉ๋ฒ๋ก ์ ์ ๊ณตํฉ๋๋ค.
โ ์ถ์ฒ ์ก์ (Actionable Items)
- ์ฅ๊ธฐ ์์ ์ํ์ ์ํ ๋ฐ์ดํฐ ํ์ดํ๋ผ์ธ(Knowledge-Action-Observation) ์ค๊ณ ์คํ
- ํนํ๋ ๋๋ฉ์ธ ๊ต์ฌ ๋ชจ๋ธ์ ํ์ฉํ ์ง์ ์ฆ๋ฅ(Distillation) ์ํฌํ๋ก์ฐ ํ ์คํธ
- ๋ชจ๋ธ ํฌ๊ธฐ ๋๋น ์์ ๋ณต์ก๋(Horizon) ๊ฐ์ ์ฑ๋ฅ ์๊ด๊ด๊ณ ๋ถ์