DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data
Paper ID: 2604.19859 โข 37 Upvotes
Agent Reinforcement Learning Small Language Model Vision Benchmark Inference
๐ ํต์ฌ ์์ฝ
10K๊ฐ์ ์ ์ ๋ฐ์ดํฐ๋ก๋ ๊ฐ๋ ฅํ 4B ๊ท๋ชจ์ ์ฃ์ง ๊ธฐ๋ฐ ์ฐ๊ตฌ ์์ด์ ํธ๋ฅผ ๋ง๋ค ์ ์๋ ๋ฐฉ๋ฒ๋ก (DR-Venus)์ ์ ์, ํนํ ๋ฐ์ดํฐ ํ์ง ๋ฐ ํ์ฉ๋ ํฅ์์ ์ด์ ์ ๋ง์ถค.
๐ ์์ธ ๋ด์ฉ
์ฃ์ง ํ๊ฒฝ์์ ์คํ ๊ฐ๋ฅํ ์์ ์ธ์ด ๋ชจ๋ธ ๊ธฐ๋ฐ์ ์ฐ๊ตฌ ์์ด์ ํธ๋ ๋น์ฉ, ์ง์ฐ ์๊ฐ, ๊ฐ์ธ ์ ๋ณด ๋ณดํธ ์ธก๋ฉด์์ ์ ๋ฆฌํ๋ค. ๋ณธ ์ฐ๊ตฌ์์๋ ์ ํ๋ ๊ณต๊ฐ ๋ฐ์ดํฐ๋ง์ผ๋ก ๊ฐ๋ ฅํ ์ํ ์ฐ๊ตฌ ์์ด์ ํธ๋ฅผ ํ๋ จํ๋ ๋ฐฉ๋ฒ์ ์ฐ๊ตฌํ๋ค. ๋ฐ์ดํฐ ํ์ง๊ณผ ํ์ฉ๋๋ฅผ ๊ฐ์ ํ๊ธฐ ์ํด, agentic SFT์ ๊ฐํ ํ์ต(RL)์ ๊ฒฐํฉํ DR-Venus๋ฅผ ์ ์ํ๋ค. Agentic SFT ๋จ๊ณ์์๋ ๋ฐ์ดํฐ ์ ์ ๋ฐ ์ฅ๊ธฐ trajectory ๋ฆฌ์ํ๋ง์ ํตํด ๋ฐ์ดํฐ ํ์ง๊ณผ ํ์ฉ๋๋ฅผ ๋์ธ๋ค. ๊ฐํ ํ์ต ๋จ๊ณ์์๋ ์ ๋ณด ํ๋ ๋ฐ ํ์ ์ธ์ ์ ๊ทํ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํด ๋ ๋ฒจ ๋ณด์์ ์ค๊ณํ์ฌ ํ์ต ํจ์จ์ฑ์ ๊ฐ์ ํ๋ค. 10K๊ฐ์ ๋ฐ์ดํฐ๋ง์ผ๋ก ํ๋ จ๋ DR-Venus-4B๋ ๊ธฐ์กด 9B ๋ชจ๋ธ์ ๋ฅ๊ฐํ๋ฉฐ, 30B ๋ชจ๋ธ๊ณผ์ ๊ฒฉ์ฐจ๋ฅผ ์ขํ๋ค.
๐ ์ฃผ์ ๋ด์ฉ (Key Points)
- Agentic SFT๋ฅผ ํตํ ๋ฐ์ดํฐ ํ์ง ๋ฐ ํ์ฉ๋ ํฅ์
- ์ ๋ณด ํ๋ ๋ฐ ํ์ ์ธ์ ์ ๊ทํ๋ฅผ ํ์ฉํ ๊ฐํ ํ์ต
- 10K ๋ฐ์ดํฐ๋ง์ผ๋ก 4B ๋ชจ๋ธ์ด ๊ธฐ์กด 9B ๋ชจ๋ธ ๋ฅ๊ฐ
๐ก ์ค๋ฌด์ ๊ฐ์น (Relevance)
์ ์ ๋ฐ์ดํฐ์ ์์ ๋ชจ๋ธ๋ก๋ ์ถฉ๋ถํ ๊ฐ๋ ฅํ ์ฐ๊ตฌ ์์ด์ ํธ๋ฅผ ๊ตฌ์ถํ ์ ์์์ ๋ณด์ฌ์ฃผ๋ฏ๋ก, ๋ฆฌ์์ค ์ ์ฝ์ด ์๋ ํ๊ฒฝ์์ ํน์ ์ฐ๊ตฌ task ์๋ํ๋ฅผ ์ํ agent ๊ฐ๋ฐ์ ์ ์ฉํ๋ค.
โ ์ถ์ฒ ์ก์ (Actionable Items)
- DR-Venus ํ์ต ๋ ์ํผ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์์ฒด ๋ฐ์ดํฐ์ ์ ์ ์ฉํด๋ณด๊ธฐ
- ์ ๋ณด ํ๋ ๊ธฐ๋ฐ ๋ณด์ ํจ์ ๋ฐ ํ์ ์ธ์ ์ ๊ทํ ์คํํด๋ณด๊ธฐ
- Test-time scaling์ ํตํด ์ฑ๋ฅ ํฅ์ ๊ฐ๋ฅ์ฑ ํ์ธํด๋ณด๊ธฐ