EvoPolicyGym: Evaluating Autonomous Policy Evolution in Interactive Environments

Paper ID: 2607.02440 • 39 Upvotes

Autonomous Agents Policy Evolution Reinforcement Learning Benchmarking Agent Benchmark Evaluation

EvoPolicyGym: Evaluating Autonomous Policy Evolution in Interactive Environments

📝 핵심 요약

에이전트가 제한된 피드백 내에서 실행 가능한 정책을 반복적으로 개선하는 능력을 평가하는 새로운 벤치마크 제안

📖 상세 내용

자율 에이전트가 피드백을 통해 실행 가능한 정책을 개선하는 능력이 중요해지고 있으나, 기존 평가는 최종 점수에만 치중하거나 소프트웨어 엔지니어링 과정과 혼재되어 평가의 정밀도가 떨어지는 문제가 있었습니다. 이를 해결하기 위해 고정된 상호작용 예산 내에서 에이전트가 정책 시스템을 반복적으로 수정하는 '자율 정책 진화(Autonomous Policy Evolution)' 평가 환경을 도입했습니다. 본 논문은 이를 위해 컴팩트한 RL 환경 기반의 벤치마크인 EvoPolicyGym을 구축했습니다. 실험 결과, GPT-5.5가 모든 환경에서 최상위 성능을 기록하며 강력한 정책 진화 능력을 보여주었습니다. 또한, 에이전트가 예산을 어떻게 배분하고 피드백을 파라미터 튜닝으로 전환하는지에 대한 궤적 분석을 제공합니다.

🔑 주요 내용 (Key Points)

자율 정책 진화(Autonomous Policy Evolution)라는 새로운 평가 프레임워크 정의
반복적인 정책 수정 및 피드백 활용 능력을 측정하는 EvoPolicyGym 벤치마크 구축
단순 점수를 넘어 예산 배분 및 피드백 전환 과정을 분석하는 궤적 진단 도구 제공

💡 실무적 가치 (Relevance)

에이전트가 단순히 문제를 푸는 것을 넘어, 코드를 수정하거나 파라미터를 조정하며 스스로 성능을 최적화하는 '자기 개선(Self-improvement)' 능력을 검증하는 데 필수적인 방법론을 제시합니다.

✅ 추천 액션 (Actionable Items)

에이전트의 코드 수정 루프(Edit-Test-Refine) 설계 시 본 벤치마크의 평가 지표 적용
제한된 토큰/실행 예산 내에서 에이전트의 최적화 효율성 테스트
에이전트가 피드백을 파라미터 튜닝으로 변환하는 패턴 분석

View on Hugging Face View PDF (arXiv)