Qwen-AgentWorld: Language World Models for General Agents
Paper ID: 2606.24597 โข 79 Upvotes
Agent World Model Reinforcement Learning Simulation RAG Reasoning Benchmark Evaluation
๐ ํต์ฌ ์์ฝ
7๊ฐ ๋๋ฉ์ธ์ ์๋ฎฌ๋ ์ด์
ํ ์ ์๋ ๋๊ท๋ชจ ์ธ์ด ๊ธฐ๋ฐ ์๋ ๋ชจ๋ธ(Language World Model) ๊ฐ๋ฐ ๋ฐ ์์ด์ ํธ ์ฑ๋ฅ ํฅ์ ์
์ฆ
๐ ์์ธ ๋ด์ฉ
์์ด์ ํธ์ ์ถ๋ก ๊ณผ ๊ณํ์ ์ํ ํต์ฌ ๊ธฐ์ ์ธ ์๋ ๋ชจ๋ธ๋ง์ ์ธ์ด ๋ชจ๋ธ๋ก ํ์ฅํ๋ ์ฐ๊ตฌ๋ฅผ ์งํํ์ต๋๋ค. ๊ธฐ์กด ์์ด์ ํธ ๋ชจ๋ธ์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด 7๊ฐ ๋๋ฉ์ธ์ ๊ฑธ์น 1,000๋ง ๊ฐ ์ด์์ ์ํธ์์ฉ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ Qwen-AgentWorld ๋ชจ๋ธ ์๋ฆฌ์ฆ๋ฅผ ์ ์ํฉ๋๋ค. ํ์ต์ CPT(๋๋ฉ์ธ ์ง์ ์ฃผ์
), SFT(๋ค์ ์ํ ์์ธก), RL(์๋ฎฌ๋ ์ด์
์ถฉ์ค๋ ๊ฐํ)์ 3๋จ๊ณ ํ์ดํ๋ผ์ธ์ ํตํด ์ํ๋์์ต๋๋ค. ์คํ ๊ฒฐ๊ณผ, ์ ์๋ ๋ชจ๋ธ์ ๊ธฐ์กด ํ๋ก ํฐ์ด ๋ชจ๋ธ๋ค์ ์ํํ๋ ์ฑ๋ฅ์ ๋ณด์์ผ๋ฉฐ, ์๋ก์ด ๋ฒค์น๋งํฌ์ธ AgentWorldBench๋ฅผ ํตํด ๊ฒ์ฆ๋์์ต๋๋ค. ๋ํ, ์ด ๋ชจ๋ธ์ ๋
๋ฆฝ์ ์ธ ํ๊ฒฝ ์๋ฎฌ๋ ์ดํฐ์ด์ ์์ด์ ํธ ์ฌ์ ํ์ต ๋ชจ๋ธ๋ก์ ๋ ๊ฐ์ง ๋ฐฉ์์ผ๋ก ์์ด์ ํธ ์ฑ๋ฅ์ ๊ทน๋ํํฉ๋๋ค.
๐ ์ฃผ์ ๋ด์ฉ (Key Points)
- 7๊ฐ ๋๋ฉ์ธ์ ์ปค๋ฒํ๋ ๋๊ท๋ชจ ์ธ์ด ๊ธฐ๋ฐ ์๋ ๋ชจ๋ธ(Qwen-AgentWorld) ๊ฐ๋ฐ
- CPT-SFT-RL๋ก ์ด์ด์ง๋ 3๋จ๊ณ ์ ๊ตํ ํ์ต ํ์ดํ๋ผ์ธ ๊ตฌ์ถ
- ์์ด์ ํธ RL์ ์ํ ํ์ฅ ๊ฐ๋ฅํ ์๋ฎฌ๋ ์ดํฐ ๋ฐ ์์ด์ ํธ ์ฑ๋ฅ ํฅ์์ ์ํ Warm-up ํจ๊ณผ ์ ์ฆ
๐ก ์ค๋ฌด์ ๊ฐ์น (Relevance)
ํ์ค ์ธ๊ณ์ ๋ณต์กํ ํ๊ฒฝ์ ๊ฐ์ ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์ผ๋ก ๊ตฌ์ถํ์ฌ ์์ด์ ํธ ํ์ต ๋น์ฉ์ ๋ฎ์ถ๊ณ , ์ฌ์ ํ์ต์ ํตํด ์์ด์ ํธ์ ๋ฒ์ฉ ์ฑ๋ฅ์ ๋์ด๋ ์๋ก์ด ๋ฐฉ๋ฒ๋ก ์ ์ ์ํฉ๋๋ค.
โ ์ถ์ฒ ์ก์ (Actionable Items)
- ์ ๊ณต๋ GitHub ์ฝ๋๋ฅผ ํตํด 7๊ฐ ๋๋ฉ์ธ ์๋ฎฌ๋ ์ด์ ์ฑ๋ฅ ํ ์คํธ
- ์์ด์ ํธ RL ํ์ต ์ Qwen-AgentWorld๋ฅผ ํ๊ฒฝ ์๋ฎฌ๋ ์ดํฐ๋ก ํ์ฉํ๋ ์คํ
- ๊ธฐ์กด ์์ด์ ํธ ๋ชจ๋ธ์ ์๋ ๋ชจ๋ธ๋ง ๊ธฐ๋ฐ Warm-up ์ ์ฉ ์ ์ฑ๋ฅ ๋ณํ ์ธก์