Playful Agentic Robot Learning

Paper ID: 2606.19419 • 35 Upvotes

Robot Learning Agentic Workflow Code-as-Policy Skill Library Agent Inference Distillation

📝 핵심 요약

자율적인 '놀이(Play)'를 통해 로봇의 재사용 가능한 코드 스킬 라이브러리를 사전 구축하는 에이전트 학습 프레임워크

📖 상세 내용

기존의 에이전트 기반 로봇 시스템은 작업 중심적이라 명시적인 지시가 있을 때만 기술을 습득하는 한계가 있습니다. 본 논문은 작업 수행 전 단계로 자율적인 '놀이'를 통해 지속적인 스킬 학습을 수행하는 Playful Agentic Robot Learning을 제안합니다. 이를 위해 RATs(Robotics Agent Teams)를 도입하여, 에이전트가 스스로 탐색적 과제를 생성하고, 코드를 실행하며, 실패를 진단하고 성공적인 코드를 스킬 라이브러리에 저장하도록 설계했습니다. 테스트 시에는 이 라이브러리에서 관련 스킬을 검색하여 새로운 작업에 재사용합니다. 실험 결과, 놀이를 통해 학습된 스킬은 기존 방식 대비 다운스트림 작업 성능을 유의미하게 향상시켰습니다. 또한, 학습된 스킬은 모델 파인튜닝 없이 컨텍스트에 삽입하는 것만으로도 다른 에이전트의 성능을 높이는 범용성을 보여주었습니다.

🔑 주요 내용 (Key Points)

자율적 놀이(Self-directed play)를 통한 지속적인 스킬 습득 메커니즘 제안
실패 진단 및 반복 실행을 통해 성공적인 코드를 스킬 라이브러리로 정제하는 RATs 프레임워크
학습된 코드를 컨텍스트에 주입하는 것만으로 타 에이전트의 성능을 높이는 높은 재사용성

💡 실무적 가치 (Relevance)

모델 전체를 재학습하지 않고도 코드 스킬 라이브러리(RAG 방식과 유사)를 통해 로봇의 작업 수행 능력을 즉각적으로 확장할 수 있는 실용적인 접근법을 제시합니다.

✅ 추천 액션 (Actionable Items)

코드 기반 정책(Code-as-Policy) 환경에서 스킬 라이브러리 구축 및 검색 로직 구현 실험
에이전트의 자율적 과제 생성(Task Generation) 알고리즘의 다양성 검증
학습된 코드 스킬이 새로운 환경(Zero-shot)에서 얼마나 견고하게 작동하는지 테스트

View on Hugging Face View PDF (arXiv)