Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence
Paper ID: 2604.18292 β’ 59 Upvotes
Agent LLM Reinforcement Learning Environment Synthesis Lifelong Learning Benchmark
π ν΅μ¬ μμ½
μμ΄μ νΈ-μλλ μ€μ νκ²½κ³Ό νμ€ν¬λ₯Ό μμ¨μ μΌλ‘ μμ±νκ³ μμ΄μ νΈμ νκ²½μ 곡λ μ§νμμΌ λ²μ© μμ΄μ νΈμ μ§λ₯μ νμ₯νλ νλ ¨ μλ λμ
λλ€.
π μμΈ λ΄μ©
λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(LLM)μ μΈλΆ λꡬ νκ²½κ³Ό μνΈμμ©νλ λ²μ© μμ΄μ νΈλ‘μμ μν μ΄ κΈ°λλ©λλ€. κ·Έλ¬λ νμ€μ μΈ νκ²½κ³Ό νμ νμ΅ λ©μ»€λμ¦μ λΆμ‘±μΌλ‘ κ°λ ₯ν μμ΄μ νΈ νλ ¨μ νκ³κ° μμμ΅λλ€. λ³Έ λ
Όλ¬Έμ νμ₯ κ°λ₯ν νκ²½μ ν΅ν΄ λ²μ© μμ΄μ νΈ μ§λ₯μ λ°μ μν€λ μ체 μ§ν νλ ¨ μλ λμΈ μμ΄μ νΈ-μλλ₯Ό μ μν©λλ€. μμ΄μ νΈ-μλλ μ€μ νκ²½ ν
λ§μμ κ²μ¦ κ°λ₯ν νμ€ν¬λ₯Ό ν©μ±νλ 'μμ΄μ νΈ νκ²½-νμ€ν¬ λ°κ²¬'κ³Ό, λμ νμ€ν¬ ν©μ±μ ν΅ν΄ μμ΄μ νΈμ νκ²½μ 곡λ μ§νμν€λ 'μ§μμ μΈ μ체 μ§ν μμ΄μ νΈ νλ ¨'μΌλ‘ ꡬμ±λ©λλ€. μμ΄μ νΈ-μλ-8B λ° 14Bλ 23κ° λ²€μΉλ§ν¬μμ κ°λ ₯ν λͺ¨λΈλ€μ λ₯κ°νλ©°, νκ²½ λ€μμ±κ³Ό μ체 μ§ν λΌμ΄λμ λ°λ₯Έ μ€μΌμΌλ§ νΈλ λλ₯Ό 보μ¬μ€λλ€.
π μ£Όμ λ΄μ© (Key Points)
- λ²μ© μμ΄μ νΈ μ§λ₯ λ°μ μ μν μ체 μ§ν νλ ¨ μλ λ 'Agent-World' μ μ.
- μμ² κ°μ μ€μ νκ²½ ν λ§μμ κ²μ¦ κ°λ₯νκ³ λμ΄λ μ‘°μ κ°λ₯ν νμ€ν¬λ₯Ό μμ¨μ μΌλ‘ ν©μ±νλ 'Agentic Environment-Task Discovery'.
- λ€μ€ νκ²½ κ°ν νμ΅κ³Ό λμ νμ€ν¬ ν©μ±μ κ²°ν©νμ¬ μμ΄μ νΈμ νκ²½μ 곡λ μ§νλ₯Ό κ°λ₯νκ² νλ 'Continuous Self-Evolving Agent Training'.
π‘ μ€λ¬΄μ κ°μΉ (Relevance)
κ°λ°μλ€μ μμ΄μ νΈ-μλλ₯Ό ν΅ν΄ μλμΌλ‘ νκ²½μ ꡬμΆνλ λΆλ΄μ μ€μ΄κ³ , λ€μν μ€μ μλ리μ€μ λμν μ μλ λμ± κ²¬κ³ νκ³ λ²μ©μ μΈ μμ΄μ νΈλ₯Ό νλ ¨ν μ μμ΅λλ€. μ΄λ μμ΄μ νΈ κ°λ°μ ν¨μ¨μ±κ³Ό μ±λ₯μ ν¬κ² ν₯μμν¬ μ μ¬λ ₯μ κ°μ§λλ€.
β μΆμ² μ‘μ (Actionable Items)
- νΉμ μμ΄μ νΈ μ¬μ© μ¬λ‘μ λν΄ μμ΄μ νΈ-μλκ° ν©μ±ν μ μλ νκ²½ λ° νμ€ν¬ μ νμ νμν΄λ³΄κΈ°.
- κΈ°μ‘΄ μμ΄μ νΈ νλ ¨ νμ΄νλΌμΈμ μμ΄μ νΈ-μλμ νκ²½ ν©μ± κΈ°λ₯μ ν΅ν©νλ λ°©μμ μ°κ΅¬νκΈ°.
- νκ²½ λ€μμ± λ° μ체 μ§ν λΌμ΄λμ κ΄λ ¨λ μ€μΌμΌλ§ νΈλ λλ₯Ό λΆμνμ¬ μ΅μ μ μμ΄μ νΈ νλ ¨ μ λ΅μ μ립νκΈ°.