In-Context World Modeling for Robotic Control
Paper ID: 2606.26025 β’ 49 Upvotes
Robotics VLA In-Context Learning World Models RAG Vision
π ν΅μ¬ μμ½
μμ€ν
μλ³(System ID)μ μΈμ»¨ν
μ€νΈ νμ΅μΌλ‘ ν΄κ²°νμ¬, μΆκ° νλΌλ―Έν° μ
λ°μ΄νΈ μμ΄ μλ‘μ΄ μΉ΄λ©λΌ μμ λ° λ‘λ΄ νκ²½μ μ μνλ VLA νλ μμν¬
π μμΈ λ΄μ©
κΈ°μ‘΄μ Vision-Language-Action (VLA) λͺ¨λΈμ νμ¬ κ΄μΈ‘κ°κ³Ό μΈμ΄ μ§μμ΄μλ§ μμ‘΄νμ¬, μΉ΄λ©λΌ μμ μ΄λ λ‘λ΄ ννκ° λ°λλ μλ‘μ΄ νκ²½μ λν μΌλ°ν λ₯λ ₯μ΄ λΆμ‘±ν©λλ€. μ΄λ λͺ¨λΈμ΄ μμ€ν
ꡬμ±μ κ³ μ λ κ²μΌλ‘ κ°μ νκΈ° λλ¬Έμ λ°μνλ λ¬Έμ μ
λλ€. λ³Έ λ
Όλ¬Έμμλ μμ€ν
μλ³μ μΈμ»¨ν
μ€νΈ μ μ λ¬Έμ λ‘ λ€λ£¨λ ICWM(In-Context World Modeling) νλ μμν¬λ₯Ό μ μν©λλ€. ICWMμ μμ
μν μ , μ§§μ μκΈ° μ£Όλμ μνΈμμ© μ΄λ ₯μ ν΅ν΄ μμ€ν
λ³μλ₯Ό μμ¨μ μΌλ‘ μΆλ‘ ν©λλ€. μ΄λ₯Ό ν΅ν΄ λͺ¨λΈμ νλΌλ―Έν° μ
λ°μ΄νΈ μμ΄λ νμ¬ μμ€ν
μ μν(Dynamics)μ νμ
ν μ μμ΅λλ€. μ€ν κ²°κ³Ό, ICWMμ μλ‘μ΄ μΉ΄λ©λΌ μμ νκ²½μμ κΈ°μ‘΄ VLA λ² μ΄μ€λΌμΈλ³΄λ€ λ°μ΄λ μ±λ₯μ μ
μ¦νμ΅λλ€.
π μ£Όμ λ΄μ© (Key Points)
- μμ€ν μλ³(System ID)μ μΈμ»¨ν μ€νΈ νμ΅ λ¬Έμ λ‘ μ¬μ μ
- μμ μν μ μ§§μ μνΈμμ©μ ν΅ν΄ νκ²½ μνμ νμ νλ ICWM νλ μμν¬ μ μ
- νλΌλ―Έν° μ λ°μ΄νΈ μλ μ λ‘μ·(Zero-shot) νκ²½ μ μ λ₯λ ₯ ν보
π‘ μ€λ¬΄μ κ°μΉ (Relevance)
λ‘λ΄ λ°°ν¬ μ νκ²½ λ³ν(μΉ΄λ©λΌ μμΉ, νλμ¨μ΄ λ³κ²½)κ° λ°μν λλ§λ€ μ¬νμ΅(Fine-tuning)μ μνν΄μΌ νλ λΉμ©κ³Ό μκ° λ¬Έμ λ₯Ό ν΄κ²°ν μ μλ μ κ·Όλ²μ
λλ€.
β μΆμ² μ‘μ (Actionable Items)
- κΈ°μ‘΄ VLA λͺ¨λΈμ μ§§μ μνΈμμ© μ΄λ ₯μ 컨ν μ€νΈλ‘ μ λ ₯νμ¬ μ±λ₯ λ³ν κ΄μ°°
- μΉ΄λ©λΌ μμ λ³νμ λ°λ₯Έ λͺ¨λΈμ μΆλ‘ μ νλ λ²€μΉλ§ν¬ ν μ€νΈ
- Task-agnosticν μνΈμμ© λ°μ΄ν°κ° λͺ¨λΈμ νκ²½ μ μμ λ―ΈμΉλ μν₯ λΆμ