Playful Agentic Robot Learning
Paper ID: 2606.19419 β’ 35 Upvotes
Robot Learning Agentic Workflow Code-as-Policy Skill Library Agent Inference Distillation
π ν΅μ¬ μμ½
μμ¨μ μΈ 'λμ΄(Play)'λ₯Ό ν΅ν΄ λ‘λ΄μ μ¬μ¬μ© κ°λ₯ν μ½λ μ€ν¬ λΌμ΄λΈλ¬λ¦¬λ₯Ό μ¬μ ꡬμΆνλ μμ΄μ νΈ νμ΅ νλ μμν¬
π μμΈ λ΄μ©
κΈ°μ‘΄μ μμ΄μ νΈ κΈ°λ° λ‘λ΄ μμ€ν
μ μμ
μ€μ¬μ μ΄λΌ λͺ
μμ μΈ μ§μκ° μμ λλ§ κΈ°μ μ μ΅λνλ νκ³κ° μμ΅λλ€. λ³Έ λ
Όλ¬Έμ μμ
μν μ λ¨κ³λ‘ μμ¨μ μΈ 'λμ΄'λ₯Ό ν΅ν΄ μ§μμ μΈ μ€ν¬ νμ΅μ μννλ Playful Agentic Robot Learningμ μ μν©λλ€. μ΄λ₯Ό μν΄ RATs(Robotics Agent Teams)λ₯Ό λμ
νμ¬, μμ΄μ νΈκ° μ€μ€λ‘ νμμ κ³Όμ λ₯Ό μμ±νκ³ , μ½λλ₯Ό μ€ννλ©°, μ€ν¨λ₯Ό μ§λ¨νκ³ μ±κ³΅μ μΈ μ½λλ₯Ό μ€ν¬ λΌμ΄λΈλ¬λ¦¬μ μ μ₯νλλ‘ μ€κ³νμ΅λλ€. ν
μ€νΈ μμλ μ΄ λΌμ΄λΈλ¬λ¦¬μμ κ΄λ ¨ μ€ν¬μ κ²μνμ¬ μλ‘μ΄ μμ
μ μ¬μ¬μ©ν©λλ€. μ€ν κ²°κ³Ό, λμ΄λ₯Ό ν΅ν΄ νμ΅λ μ€ν¬μ κΈ°μ‘΄ λ°©μ λλΉ λ€μ΄μ€νΈλ¦Ό μμ
μ±λ₯μ μ μλ―Ένκ² ν₯μμμΌ°μ΅λλ€. λν, νμ΅λ μ€ν¬μ λͺ¨λΈ νμΈνλ μμ΄ μ»¨ν
μ€νΈμ μ½μ
νλ κ²λ§μΌλ‘λ λ€λ₯Έ μμ΄μ νΈμ μ±λ₯μ λμ΄λ λ²μ©μ±μ 보μ¬μ£Όμμ΅λλ€.
π μ£Όμ λ΄μ© (Key Points)
- μμ¨μ λμ΄(Self-directed play)λ₯Ό ν΅ν μ§μμ μΈ μ€ν¬ μ΅λ λ©μ»€λμ¦ μ μ
- μ€ν¨ μ§λ¨ λ° λ°λ³΅ μ€νμ ν΅ν΄ μ±κ³΅μ μΈ μ½λλ₯Ό μ€ν¬ λΌμ΄λΈλ¬λ¦¬λ‘ μ μ νλ RATs νλ μμν¬
- νμ΅λ μ½λλ₯Ό 컨ν μ€νΈμ μ£Όμ νλ κ²λ§μΌλ‘ ν μμ΄μ νΈμ μ±λ₯μ λμ΄λ λμ μ¬μ¬μ©μ±
π‘ μ€λ¬΄μ κ°μΉ (Relevance)
λͺ¨λΈ μ 체λ₯Ό μ¬νμ΅νμ§ μκ³ λ μ½λ μ€ν¬ λΌμ΄λΈλ¬λ¦¬(RAG λ°©μκ³Ό μ μ¬)λ₯Ό ν΅ν΄ λ‘λ΄μ μμ
μν λ₯λ ₯μ μ¦κ°μ μΌλ‘ νμ₯ν μ μλ μ€μ©μ μΈ μ κ·Όλ²μ μ μν©λλ€.
β μΆμ² μ‘μ (Actionable Items)
- μ½λ κΈ°λ° μ μ± (Code-as-Policy) νκ²½μμ μ€ν¬ λΌμ΄λΈλ¬λ¦¬ κ΅¬μΆ λ° κ²μ λ‘μ§ κ΅¬ν μ€ν
- μμ΄μ νΈμ μμ¨μ κ³Όμ μμ±(Task Generation) μκ³ λ¦¬μ¦μ λ€μμ± κ²μ¦
- νμ΅λ μ½λ μ€ν¬μ΄ μλ‘μ΄ νκ²½(Zero-shot)μμ μΌλ§λ κ²¬κ³ νκ² μλνλμ§ ν μ€νΈ