ENPIRE: Agentic Robot Policy Self-Improvement in the Real World

Paper ID: 2606.19980 • 7 Upvotes

Agentic Workflow Robotics Automated ML Closed-loop Control Agent Vision Evaluation

ENPIRE: Agentic Robot Policy Self-Improvement in the Real World

📝 핵심 요약

코딩 에이전트가 물리적 환경의 피드백을 통해 스스로 로봇 제어 알고리즘을 개선하는 폐쇄 루프(Closed-loop) 프레임워크 제안

📖 상세 내용

로봇의 정교한 조작 기술은 여전히 인간의 개입과 알고리즘 엔지니어링에 크게 의존하고 있어 범용 물리 지능 구현의 병목이 되고 있습니다. 기존 코딩 에이전트는 디지털 환경에 국한되어 있어, 실제 물리 환경에서의 반복적인 실험과 개선 루프를 자동화하는 것이 필수적입니다. 본 논문은 환경 리셋, 정책 실행, 결과 검증, 알고리즘 개선이 유기적으로 연결된 ENPIRE 프레임워크를 소개합니다. 이 시스템은 코딩 에이전트가 로그 분석과 문헌 조사를 통해 스스로 학습 인프라와 코드를 수정하며 정책을 최적화하도록 설계되었습니다. 실험 결과, 에이전트는 핀 박스 정리나 도구 사용과 같은 고난도 작업에서 99%의 성공률을 달하는 정책을 자율적으로 학습했습니다. 이는 로봇 연구 프로세스를 자동화 가능한 최적화 문제로 전환하여 인간의 개입을 최소화할 수 있음을 보여줍니다.

🔑 주요 내용 (Key Points)

물리적 피드백 루프(Reset-Execute-Verify-Refine)를 자동화하는 ENPIRE 프레임워크 개발
코딩 에이전트가 로그 분석 및 문헌 조사를 통해 알고리즘과 학습 인프라를 직접 개선하는 Evolution 모듈 도입
멀티 로봇 환경에서 에이전트 팀을 운용하여 학습 속도를 가속화하는 확장성 확보

💡 실무적 가치 (Relevance)

로봇 제어 알고리즘 개발 시 반복되는 실험-수정 과정을 자동화하여 엔지니어의 수동 개입을 획기적으로 줄일 수 있는 방법론을 제시합니다.

✅ 추천 액션 (Actionable Items)

에이전트가 생성한 코드가 물리적 하드웨어의 안전 가이드라인을 준수하는지 검증하는 샌드박스 구축
실제 로봇 환경과 유사한 시뮬레이션 환경에서 ENPIRE의 피드백 루프 성능 테스트
실패 로그를 기반으로 에이전트가 하이퍼파라미터를 조정하는 로직의 유효성 검증

View on Hugging Face View PDF (arXiv)