PyoSignal Logo
PyoSignal
Back to Research

OPID: On-Policy Skill Distillation for Agentic Reinforcement Learning

Paper ID: 2606.26790 β€’ 45 Upvotes
Reinforcement Learning LLM Agents Self-Distillation Skill Learning Agent Vision Distillation
OPID: On-Policy Skill Distillation for Agentic Reinforcement Learning

πŸ“ 핡심 μš”μ•½

μ˜¨ν΄λ¦¬μ‹œ(On-policy) κΆ€μ μ—μ„œ 계측적 μŠ€ν‚¬μ„ μΆ”μΆœν•˜μ—¬ μ—μ΄μ „νŠΈμ˜ μ˜μ‚¬κ²°μ • 밀도λ₯Ό λ†’μ΄λŠ” 자기 증λ₯˜(Self-distillation) ν”„λ ˆμž„μ›Œν¬

πŸ“– 상세 λ‚΄μš©

κ²°κ³Ό 기반 κ°•ν™”ν•™μŠ΅(Outcome-based RL)은 μ•ˆμ •μ μ΄μ§€λ§Œ ν¬μ†Œν•œ 보상 문제둜 인해 쀑간 λ‹¨κ³„μ˜ μ˜μ‚¬κ²°μ • κ°€μ΄λ“œλ₯Ό μ œκ³΅ν•˜κΈ° μ–΄λ ΅μŠ΅λ‹ˆλ‹€. 기쑴의 μŠ€ν‚¬ 기반 방식은 μ™ΈλΆ€ λ©”λͺ¨λ¦¬λ‚˜ κ²€μƒ‰λœ μ»¨ν…μŠ€νŠΈμ— μ˜μ‘΄ν•˜μ—¬ ν˜„μž¬ μ •μ±…μ˜ μƒνƒœ 뢄포와 λΆˆμΌμΉ˜ν•  μœ„ν—˜μ΄ μžˆμŠ΅λ‹ˆλ‹€. 이λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ OPIDλŠ” μ™„λ£Œλœ μ˜¨ν΄λ¦¬μ‹œ κΆ€μ μ—μ„œ 직접 μŠ€ν‚¬μ„ μΆ”μΆœν•˜λŠ” ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. μ—ν”Όμ†Œλ“œ μˆ˜μ€€κ³Ό μŠ€ν… μˆ˜μ€€μ˜ 계측적 μŠ€ν‚¬μ„ μ •μ˜ν•˜κ³ , 'Critical-first routing'을 톡해 μ€‘μš”ν•œ μ‹œμ μ— μ μ ˆν•œ μŠ€ν‚¬μ„ μ£Όμž…ν•©λ‹ˆλ‹€. 이λ₯Ό 톡해 정책이 λ™μΌν•œ 응닡을 μŠ€ν‚¬μ΄ ν¬ν•¨λœ μ»¨ν…μŠ€νŠΈμ—μ„œ μž¬ν‰κ°€ν•˜κ²Œ ν•˜μ—¬ 밀도 높은 토큰 λ‹¨μœ„μ˜ 자기 증λ₯˜ 이득을 μƒμ„±ν•©λ‹ˆλ‹€. μ‹€ν—˜ κ²°κ³Ό, ALFWorld 및 WebShop λ“±μ—μ„œ μ„±λŠ₯κ³Ό μƒ˜ν”Œ νš¨μœ¨μ„± λͺ¨λ‘μ—μ„œ μš°μˆ˜ν•œ μ„±κ³Όλ₯Ό λ³΄μ˜€μŠ΅λ‹ˆλ‹€.

πŸ”‘ μ£Όμš” λ‚΄μš© (Key Points)

  • μ˜¨ν΄λ¦¬μ‹œ ꢀ적 기반의 계측적 μŠ€ν‚¬ μΆ”μΆœ (μ—ν”Όμ†Œλ“œ/μŠ€ν… μˆ˜μ€€)
  • μ€‘μš” μ˜μ‚¬κ²°μ • μ‹œμ μ— μŠ€ν… μŠ€ν‚¬μ„ μš°μ„  μ μš©ν•˜λŠ” Critical-first routing λ©”μ»€λ‹ˆμ¦˜
  • μŠ€ν‚¬ μ£Όμž…μ„ ν†΅ν•œ 토큰 λ‹¨μœ„μ˜ 자기 증λ₯˜(Self-distillation) 및 κ²°κ³Ό 기반 보상 κ²°ν•©

πŸ’‘ 싀무적 κ°€μΉ˜ (Relevance)

μ—μ΄μ „νŠΈ ν•™μŠ΅ μ‹œ 보상이 맀우 ν¬μ†Œν•œ ν™˜κ²½μ—μ„œ, 과거의 성곡/μ‹€νŒ¨ κ²½ν—˜μ„ μ •κ΅ν•œ κ°€μ΄λ“œ(Skill)둜 λ³€ν™˜ν•˜μ—¬ ν•™μŠ΅ νš¨μœ¨μ„ κ·ΉλŒ€ν™”ν•˜λŠ” 기법을 배울 수 μžˆμŠ΅λ‹ˆλ‹€.

βœ… μΆ”μ²œ μ•‘μ…˜ (Actionable Items)

  • λ³΅μž‘ν•œ μ›Œν¬ν”Œλ‘œμš°λ₯Ό κ°€μ§„ μ—μ΄μ „νŠΈ ν™˜κ²½μ—μ„œ μŠ€ν… 레벨 μŠ€ν‚¬μ˜ μœ νš¨μ„± 검증
  • κΈ°μ‘΄ Outcome-only RL λͺ¨λΈμ— OPID의 μŠ€ν‚¬ μΆ”μΆœ 둜직 적용 ν…ŒμŠ€νŠΈ
  • μŠ€ν‚¬ μ£Όμž… μ‹œ λ°œμƒν•˜λŠ” μ»¨ν…μŠ€νŠΈ λ³€ν™”κ°€ μ •μ±… μ•ˆμ •μ„±μ— λ―ΈμΉ˜λŠ” 영ν–₯ 뢄석