Qwen-AgentWorld: Language World Models for General Agents

Paper ID: 2606.24597 • 79 Upvotes

Agent World Model Reinforcement Learning Simulation RAG Reasoning Benchmark Evaluation

Qwen-AgentWorld: Language World Models for General Agents

📝 핵심 요약

7개 도메인을 시뮬레이션할 수 있는 대규모 언어 기반 월드 모델(Language World Model) 개발 및 에이전트 성능 향상 입증

📖 상세 내용

에이전트의 추론과 계획을 위한 핵심 기제인 월드 모델링을 언어 모델로 확장하는 연구를 진행했습니다. 기존 에이전트 모델의 한계를 극복하기 위해 7개 도메인에 걸친 1,000만 개 이상의 상호작용 데이터를 활용한 Qwen-AgentWorld 모델 시리즈를 제안합니다. 학습은 CPT(도메인 지식 주입), SFT(다음 상태 예측), RL(시뮬레이션 충실도 강화)의 3단계 파이프라인을 통해 수행되었습니다. 실험 결과, 제안된 모델은 기존 프론티어 모델들을 상회하는 성능을 보였으며, 새로운 벤치마크인 AgentWorldBench를 통해 검증되었습니다. 또한, 이 모델은 독립적인 환경 시뮬레이터이자 에이전트 사전 학습 모델로서 두 가지 방식으로 에이전트 성능을 극대화합니다.

🔑 주요 내용 (Key Points)

7개 도메인을 커버하는 대규모 언어 기반 월드 모델(Qwen-AgentWorld) 개발
CPT-SFT-RL로 이어지는 3단계 정교한 학습 파이프라인 구축
에이전트 RL을 위한 확장 가능한 시뮬레이터 및 에이전트 성능 향상을 위한 Warm-up 효과 입증

💡 실무적 가치 (Relevance)

현실 세계의 복잡한 환경을 가상 시뮬레이션 환경으로 구축하여 에이전트 학습 비용을 낮추고, 사전 학습을 통해 에이전트의 범용 성능을 높이는 새로운 방법론을 제시합니다.

✅ 추천 액션 (Actionable Items)

제공된 GitHub 코드를 통해 7개 도메인 시뮬레이션 성능 테스트
에이전트 RL 학습 시 Qwen-AgentWorld를 환경 시뮬레이터로 활용하는 실험
기존 에이전트 모델에 월드 모델링 기반 Warm-up 적용 시 성능 변화 측정

View on Hugging Face View PDF (arXiv)