Near-Future Policy Optimization

Paper ID: 2604.20733 • 43 Upvotes

Reinforcement Learning Policy Optimization LLM Training Agent RAG

📝 핵심 요약

정책의 미래 체크포인트를 활용하여 강화학습(RLVR) 훈련을 가속화하고 최종 성능을 향상시키는 새로운 정책 최적화 기법입니다.

📖 상세 내용

검증 가능한 보상 강화학습(RLVR)은 훈련 후 핵심 레시피가 되었으며, 오프-정책 궤적을 온-정책 탐색에 도입하면 수렴을 가속화하고 성능을 높일 수 있습니다. 그러나 적합한 궤적 소스를 찾는 것이 주요 과제인데, 기존 방식들은 '충분히 강하고(높은 Q)' '충분히 가까운(낮은 V)' 조건을 동시에 만족시키지 못해 학습 신호 S=Q/V를 극대화하지 못합니다. 본 논문은 정책 자신의 가까운 미래 시점(동일 훈련 실행의 나중 체크포인트)을 보조 궤적 소스로 활용하는 NPO(Near-Future Policy Optimization)를 제안합니다. 이는 궤적 품질과 분산 비용의 균형을 맞추며, 자동 개입 및 최적 체크포인트 선택을 위한 적응형 AutoNPO도 제시합니다. Qwen3-VL-8B-Instruct 모델에 GRPO와 함께 적용한 결과, NPO는 평균 성능을 57.88에서 62.84로, AutoNPO는 63.15로 향상시켜 수렴을 가속화하고 최종 성능 한계를 높였습니다.

🔑 주요 내용 (Key Points)

정책 자신의 '가까운 미래' 체크포인트를 활용하여 오프-정책 궤적을 생성하는 NPO 기법 제안
궤적 품질(높은 Q)과 흡수 용이성(낮은 V)의 균형을 맞춰 학습 신호 S=Q/V를 극대화
온라인 훈련 신호를 통해 개입 시점과 가이드 체크포인트를 자동으로 선택하는 적응형 AutoNPO 제시

💡 실무적 가치 (Relevance)

기존 RL 훈련 파이프라인에 큰 변경 없이 모델의 성능을 높이고 훈련 시간을 단축할 수 있는 실용적인 방법론을 제공합니다. 외부 데이터나 복잡한 리플레이 버퍼 없이도 효과적인 오프-정책 학습이 가능해집니다.

✅ 추천 액션 (Actionable Items)

현재 RL 파인튜닝 파이프라인에 NPO를 적용하여 체크포인트 기반의 오프-정책 학습 효과를 검증해 보세요.
AutoNPO에서 제안하는 S=Q/V 지표를 활용하여 최적의 '미래' 체크포인트를 자동으로 선택하는 로직을 구현해 보세요.
다양한 '미래' 체크포인트 간격 및 선택 전략이 모델 성능과 수렴 속도에 미치는 영향을 실험해 보세요.

View on Hugging Face View PDF (arXiv)