PyoSignal Logo
PyoSignal
Back to Research

In-Context World Modeling for Robotic Control

Paper ID: 2606.26025 β€’ 49 Upvotes
Robotics VLA In-Context Learning World Models RAG Vision
In-Context World Modeling for Robotic Control

πŸ“ 핡심 μš”μ•½

μ‹œμŠ€ν…œ 식별(System ID)을 μΈμ»¨ν…μŠ€νŠΈ ν•™μŠ΅μœΌλ‘œ ν•΄κ²°ν•˜μ—¬, μΆ”κ°€ νŒŒλΌλ―Έν„° μ—…λ°μ΄νŠΈ 없이 μƒˆλ‘œμš΄ 카메라 μ‹œμ  및 λ‘œλ΄‡ ν™˜κ²½μ— μ μ‘ν•˜λŠ” VLA ν”„λ ˆμž„μ›Œν¬

πŸ“– 상세 λ‚΄μš©

기쑴의 Vision-Language-Action (VLA) λͺ¨λΈμ€ ν˜„μž¬ κ΄€μΈ‘κ°’κ³Ό μ–Έμ–΄ μ§€μ‹œμ–΄μ—λ§Œ μ˜μ‘΄ν•˜μ—¬, 카메라 μ‹œμ μ΄λ‚˜ λ‘œλ΄‡ ν˜•νƒœκ°€ λ°”λ€ŒλŠ” μƒˆλ‘œμš΄ ν™˜κ²½μ— λŒ€ν•œ μΌλ°˜ν™” λŠ₯λ ₯이 λΆ€μ‘±ν•©λ‹ˆλ‹€. μ΄λŠ” λͺ¨λΈμ΄ μ‹œμŠ€ν…œ ꡬ성을 κ³ μ •λœ κ²ƒμœΌλ‘œ κ°€μ •ν•˜κΈ° λ•Œλ¬Έμ— λ°œμƒν•˜λŠ” λ¬Έμ œμž…λ‹ˆλ‹€. λ³Έ λ…Όλ¬Έμ—μ„œλŠ” μ‹œμŠ€ν…œ 식별을 μΈμ»¨ν…μŠ€νŠΈ 적응 문제둜 λ‹€λ£¨λŠ” ICWM(In-Context World Modeling) ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. ICWM은 μž‘μ—… μˆ˜ν–‰ μ „, 짧은 자기 주도적 μƒν˜Έμž‘μš© 이λ ₯을 톡해 μ‹œμŠ€ν…œ λ³€μˆ˜λ₯Ό 자율적으둜 μΆ”λ‘ ν•©λ‹ˆλ‹€. 이λ₯Ό 톡해 λͺ¨λΈμ€ νŒŒλΌλ―Έν„° μ—…λ°μ΄νŠΈ 없이도 ν˜„μž¬ μ‹œμŠ€ν…œμ˜ μ—­ν•™(Dynamics)을 νŒŒμ•…ν•  수 μžˆμŠ΅λ‹ˆλ‹€. μ‹€ν—˜ κ²°κ³Ό, ICWM은 μƒˆλ‘œμš΄ 카메라 μ‹œμ  ν™˜κ²½μ—μ„œ κΈ°μ‘΄ VLA λ² μ΄μŠ€λΌμΈλ³΄λ‹€ λ›°μ–΄λ‚œ μ„±λŠ₯을 μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ£Όμš” λ‚΄μš© (Key Points)

  • μ‹œμŠ€ν…œ 식별(System ID)을 μΈμ»¨ν…μŠ€νŠΈ ν•™μŠ΅ 문제둜 μž¬μ •μ˜
  • μž‘μ—… μˆ˜ν–‰ μ „ 짧은 μƒν˜Έμž‘μš©μ„ 톡해 ν™˜κ²½ 역학을 νŒŒμ•…ν•˜λŠ” ICWM ν”„λ ˆμž„μ›Œν¬ μ œμ•ˆ
  • νŒŒλΌλ―Έν„° μ—…λ°μ΄νŠΈ μ—†λŠ” μ œλ‘œμƒ·(Zero-shot) ν™˜κ²½ 적응 λŠ₯λ ₯ 확보

πŸ’‘ 싀무적 κ°€μΉ˜ (Relevance)

λ‘œλ΄‡ 배포 μ‹œ ν™˜κ²½ λ³€ν™”(카메라 μœ„μΉ˜, ν•˜λ“œμ›¨μ–΄ λ³€κ²½)κ°€ λ°œμƒν•  λ•Œλ§ˆλ‹€ μž¬ν•™μŠ΅(Fine-tuning)을 μˆ˜ν–‰ν•΄μ•Ό ν•˜λŠ” λΉ„μš©κ³Ό μ‹œκ°„ 문제λ₯Ό ν•΄κ²°ν•  수 μžˆλŠ” μ ‘κ·Όλ²•μž…λ‹ˆλ‹€.

βœ… μΆ”μ²œ μ•‘μ…˜ (Actionable Items)

  • κΈ°μ‘΄ VLA λͺ¨λΈμ— 짧은 μƒν˜Έμž‘μš© 이λ ₯을 μ»¨ν…μŠ€νŠΈλ‘œ μž…λ ₯ν•˜μ—¬ μ„±λŠ₯ λ³€ν™” κ΄€μ°°
  • 카메라 μ‹œμ  변화에 λ”°λ₯Έ λͺ¨λΈμ˜ μΆ”λ‘  정확도 벀치마크 ν…ŒμŠ€νŠΈ
  • Task-agnosticν•œ μƒν˜Έμž‘μš© 데이터가 λͺ¨λΈμ˜ ν™˜κ²½ 적응에 λ―ΈμΉ˜λŠ” 영ν–₯ 뢄석