OPID: On-Policy Skill Distillation for Agentic Reinforcement Learning
Paper ID: 2606.26790 β’ 45 Upvotes
Reinforcement Learning LLM Agents Self-Distillation Skill Learning Agent Vision Distillation
π ν΅μ¬ μμ½
μ¨ν΄λ¦¬μ(On-policy) κΆ€μ μμ κ³μΈ΅μ μ€ν¬μ μΆμΆνμ¬ μμ΄μ νΈμ μμ¬κ²°μ λ°λλ₯Ό λμ΄λ μκΈ° μ¦λ₯(Self-distillation) νλ μμν¬
π μμΈ λ΄μ©
κ²°κ³Ό κΈ°λ° κ°ννμ΅(Outcome-based RL)μ μμ μ μ΄μ§λ§ ν¬μν 보μ λ¬Έμ λ‘ μΈν΄ μ€κ° λ¨κ³μ μμ¬κ²°μ κ°μ΄λλ₯Ό μ 곡νκΈ° μ΄λ ΅μ΅λλ€. κΈ°μ‘΄μ μ€ν¬ κΈ°λ° λ°©μμ μΈλΆ λ©λͺ¨λ¦¬λ κ²μλ 컨ν
μ€νΈμ μμ‘΄νμ¬ νμ¬ μ μ±
μ μν λΆν¬μ λΆμΌμΉν μνμ΄ μμ΅λλ€. μ΄λ₯Ό ν΄κ²°νκΈ° μν΄ OPIDλ μλ£λ μ¨ν΄λ¦¬μ κΆ€μ μμ μ§μ μ€ν¬μ μΆμΆνλ νλ μμν¬λ₯Ό μ μν©λλ€. μνΌμλ μμ€κ³Ό μ€ν
μμ€μ κ³μΈ΅μ μ€ν¬μ μ μνκ³ , 'Critical-first routing'μ ν΅ν΄ μ€μν μμ μ μ μ ν μ€ν¬μ μ£Όμ
ν©λλ€. μ΄λ₯Ό ν΅ν΄ μ μ±
μ΄ λμΌν μλ΅μ μ€ν¬μ΄ ν¬ν¨λ 컨ν
μ€νΈμμ μ¬νκ°νκ² νμ¬ λ°λ λμ ν ν° λ¨μμ μκΈ° μ¦λ₯ μ΄λμ μμ±ν©λλ€. μ€ν κ²°κ³Ό, ALFWorld λ° WebShop λ±μμ μ±λ₯κ³Ό μν ν¨μ¨μ± λͺ¨λμμ μ°μν μ±κ³Όλ₯Ό 보μμ΅λλ€.
π μ£Όμ λ΄μ© (Key Points)
- μ¨ν΄λ¦¬μ κΆ€μ κΈ°λ°μ κ³μΈ΅μ μ€ν¬ μΆμΆ (μνΌμλ/μ€ν μμ€)
- μ€μ μμ¬κ²°μ μμ μ μ€ν μ€ν¬μ μ°μ μ μ©νλ Critical-first routing λ©μ»€λμ¦
- μ€ν¬ μ£Όμ μ ν΅ν ν ν° λ¨μμ μκΈ° μ¦λ₯(Self-distillation) λ° κ²°κ³Ό κΈ°λ° λ³΄μ κ²°ν©
π‘ μ€λ¬΄μ κ°μΉ (Relevance)
μμ΄μ νΈ νμ΅ μ 보μμ΄ λ§€μ° ν¬μν νκ²½μμ, κ³Όκ±°μ μ±κ³΅/μ€ν¨ κ²½νμ μ κ΅ν κ°μ΄λ(Skill)λ‘ λ³ννμ¬ νμ΅ ν¨μ¨μ κ·Ήλννλ κΈ°λ²μ λ°°μΈ μ μμ΅λλ€.
β μΆμ² μ‘μ (Actionable Items)
- 볡μ‘ν μν¬νλ‘μ°λ₯Ό κ°μ§ μμ΄μ νΈ νκ²½μμ μ€ν λ 벨 μ€ν¬μ μ ν¨μ± κ²μ¦
- κΈ°μ‘΄ Outcome-only RL λͺ¨λΈμ OPIDμ μ€ν¬ μΆμΆ λ‘μ§ μ μ© ν μ€νΈ
- μ€ν¬ μ£Όμ μ λ°μνλ 컨ν μ€νΈ λ³νκ° μ μ± μμ μ±μ λ―ΈμΉλ μν₯ λΆμ