Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence

Paper ID: 2604.18292 • 59 Upvotes

Agent LLM Reinforcement Learning Environment Synthesis Lifelong Learning Benchmark

Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence

📝 핵심 요약

에이전트-월드는 실제 환경과 태스크를 자율적으로 생성하고 에이전트와 환경을 공동 진화시켜 범용 에이전트의 지능을 확장하는 훈련 아레나입니다.

📖 상세 내용

대규모 언어 모델(LLM)은 외부 도구 환경과 상호작용하는 범용 에이전트로서의 역할이 기대됩니다. 그러나 현실적인 환경과 평생 학습 메커니즘의 부족으로 강력한 에이전트 훈련에 한계가 있었습니다. 본 논문은 확장 가능한 환경을 통해 범용 에이전트 지능을 발전시키는 자체 진화 훈련 아레나인 에이전트-월드를 제안합니다. 에이전트-월드는 실제 환경 테마에서 검증 가능한 태스크를 합성하는 '에이전트 환경-태스크 발견'과, 동적 태스크 합성을 통해 에이전트와 환경을 공동 진화시키는 '지속적인 자체 진화 에이전트 훈련'으로 구성됩니다. 에이전트-월드-8B 및 14B는 23개 벤치마크에서 강력한 모델들을 능가하며, 환경 다양성과 자체 진화 라운드에 따른 스케일링 트렌드를 보여줍니다.

🔑 주요 내용 (Key Points)

범용 에이전트 지능 발전을 위한 자체 진화 훈련 아레나 'Agent-World' 제안.
수천 개의 실제 환경 테마에서 검증 가능하고 난이도 조절 가능한 태스크를 자율적으로 합성하는 'Agentic Environment-Task Discovery'.
다중 환경 강화 학습과 동적 태스크 합성을 결합하여 에이전트와 환경의 공동 진화를 가능하게 하는 'Continuous Self-Evolving Agent Training'.

💡 실무적 가치 (Relevance)

개발자들은 에이전트-월드를 통해 수동으로 환경을 구축하는 부담을 줄이고, 다양한 실제 시나리오에 대응할 수 있는 더욱 견고하고 범용적인 에이전트를 훈련할 수 있습니다. 이는 에이전트 개발의 효율성과 성능을 크게 향상시킬 잠재력을 가집니다.

✅ 추천 액션 (Actionable Items)

특정 에이전트 사용 사례에 대해 에이전트-월드가 합성할 수 있는 환경 및 태스크 유형을 탐색해보기.
기존 에이전트 훈련 파이프라인에 에이전트-월드의 환경 합성 기능을 통합하는 방안을 연구하기.
환경 다양성 및 자체 진화 라운드와 관련된 스케일링 트렌드를 분석하여 최적의 에이전트 훈련 전략을 수립하기.

View on Hugging Face View PDF (arXiv)