In-Context World Modeling for Robotic Control

Paper ID: 2606.26025 • 49 Upvotes

Robotics VLA In-Context Learning World Models RAG Vision

In-Context World Modeling for Robotic Control

📝 핵심 요약

시스템 식별(System ID)을 인컨텍스트 학습으로 해결하여, 추가 파라미터 업데이트 없이 새로운 카메라 시점 및 로봇 환경에 적응하는 VLA 프레임워크

📖 상세 내용

기존의 Vision-Language-Action (VLA) 모델은 현재 관측값과 언어 지시어에만 의존하여, 카메라 시점이나 로봇 형태가 바뀌는 새로운 환경에 대한 일반화 능력이 부족합니다. 이는 모델이 시스템 구성을 고정된 것으로 가정하기 때문에 발생하는 문제입니다. 본 논문에서는 시스템 식별을 인컨텍스트 적응 문제로 다루는 ICWM(In-Context World Modeling) 프레임워크를 제안합니다. ICWM은 작업 수행 전, 짧은 자기 주도적 상호작용 이력을 통해 시스템 변수를 자율적으로 추론합니다. 이를 통해 모델은 파라미터 업데이트 없이도 현재 시스템의 역학(Dynamics)을 파악할 수 있습니다. 실험 결과, ICWM은 새로운 카메라 시점 환경에서 기존 VLA 베이스라인보다 뛰어난 성능을 입증했습니다.

🔑 주요 내용 (Key Points)

시스템 식별(System ID)을 인컨텍스트 학습 문제로 재정의
작업 수행 전 짧은 상호작용을 통해 환경 역학을 파악하는 ICWM 프레임워크 제안
파라미터 업데이트 없는 제로샷(Zero-shot) 환경 적응 능력 확보

💡 실무적 가치 (Relevance)

로봇 배포 시 환경 변화(카메라 위치, 하드웨어 변경)가 발생할 때마다 재학습(Fine-tuning)을 수행해야 하는 비용과 시간 문제를 해결할 수 있는 접근법입니다.

✅ 추천 액션 (Actionable Items)

기존 VLA 모델에 짧은 상호작용 이력을 컨텍스트로 입력하여 성능 변화 관찰
카메라 시점 변화에 따른 모델의 추론 정확도 벤치마크 테스트
Task-agnostic한 상호작용 데이터가 모델의 환경 적응에 미치는 영향 분석

View on Hugging Face View PDF (arXiv)