OPID: On-Policy Skill Distillation for Agentic Reinforcement Learning

Paper ID: 2606.26790 • 45 Upvotes

Reinforcement Learning LLM Agents Self-Distillation Skill Learning Agent Vision Distillation

OPID: On-Policy Skill Distillation for Agentic Reinforcement Learning

📝 핵심 요약

온폴리시(On-policy) 궤적에서 계층적 스킬을 추출하여 에이전트의 의사결정 밀도를 높이는 자기 증류(Self-distillation) 프레임워크

📖 상세 내용

결과 기반 강화학습(Outcome-based RL)은 안정적이지만 희소한 보상 문제로 인해 중간 단계의 의사결정 가이드를 제공하기 어렵습니다. 기존의 스킬 기반 방식은 외부 메모리나 검색된 컨텍스트에 의존하여 현재 정책의 상태 분포와 불일치할 위험이 있습니다. 이를 해결하기 위해 OPID는 완료된 온폴리시 궤적에서 직접 스킬을 추출하는 프레임워크를 제안합니다. 에피소드 수준과 스텝 수준의 계층적 스킬을 정의하고, 'Critical-first routing'을 통해 중요한 시점에 적절한 스킬을 주입합니다. 이를 통해 정책이 동일한 응답을 스킬이 포함된 컨텍스트에서 재평가하게 하여 밀도 높은 토큰 단위의 자기 증류 이득을 생성합니다. 실험 결과, ALFWorld 및 WebShop 등에서 성능과 샘플 효율성 모두에서 우수한 성과를 보였습니다.

🔑 주요 내용 (Key Points)

온폴리시 궤적 기반의 계층적 스킬 추출 (에피소드/스텝 수준)
중요 의사결정 시점에 스텝 스킬을 우선 적용하는 Critical-first routing 메커니즘
스킬 주입을 통한 토큰 단위의 자기 증류(Self-distillation) 및 결과 기반 보상 결합

💡 실무적 가치 (Relevance)

에이전트 학습 시 보상이 매우 희소한 환경에서, 과거의 성공/실패 경험을 정교한 가이드(Skill)로 변환하여 학습 효율을 극대화하는 기법을 배울 수 있습니다.

✅ 추천 액션 (Actionable Items)

복잡한 워크플로우를 가진 에이전트 환경에서 스텝 레벨 스킬의 유효성 검증
기존 Outcome-only RL 모델에 OPID의 스킬 추출 로직 적용 테스트
스킬 주입 시 발생하는 컨텍스트 변화가 정책 안정성에 미치는 영향 분석

View on Hugging Face View PDF (arXiv)