PyoSignal Logo
PyoSignal
Back to Research

Orca: The World is in Your Mind

Paper ID: 2606.30534 β€’ 176 Upvotes
World Model Multimodal Embodied AI Self-Supervised Learning Vision Video Evaluation
Orca: The World is in Your Mind

πŸ“ 핡심 μš”μ•½

μ°¨μ„ΈλŒ€ λ²”μš© μ›”λ“œ λͺ¨λΈλ‘œμ„œ, λΉ„λ””μ˜€μ™€ μ–Έμ–΄λ₯Ό ν†΅ν•©ν•œ 잠재 곡간을 톡해 이해, 예츑, 행동을 λ™μ‹œμ— μˆ˜ν–‰ν•˜λŠ” ν”„λ ˆμž„μ›Œν¬

πŸ“– 상세 λ‚΄μš©

기쑴의 λͺ¨λΈλ“€μ€ λ‹¨μˆœν•œ λ‹€μŒ ν† ν°μ΄λ‚˜ ν”„λ ˆμž„ μ˜ˆμΈ‘μ— μΉ˜μ€‘ν•˜μ—¬ λ³΅μž‘ν•œ μ„Έκ³„μ˜ λ³€ν™”λ₯Ό μ˜¨μ „νžˆ λ‹΄μ•„λ‚΄μ§€ λͺ»ν•˜λŠ” ν•œκ³„κ°€ μžˆμ—ˆμŠ΅λ‹ˆλ‹€. 이λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ OrcaλŠ” μ°¨μ„ΈλŒ€ μƒνƒœ 예츑(Next-State-Prediction)을 λͺ©ν‘œλ‘œ ν•˜λŠ” λ²”μš© μ›”λ“œ νŒŒμš΄λ°μ΄μ…˜ λͺ¨λΈμ„ μ œμ•ˆν•©λ‹ˆλ‹€. λͺ¨λΈμ€ 연속적인 λΉ„λ””μ˜€λ₯Ό ν†΅ν•œ 'λ¬΄μ˜μ‹μ  ν•™μŠ΅'κ³Ό μ–Έμ–΄ 기반 이벀트λ₯Ό ν†΅ν•œ 'μ˜μ‹μ  ν•™μŠ΅'μ΄λΌλŠ” 두 κ°€μ§€ μƒν˜Έ 보완적 νŒ¨λŸ¬λ‹€μž„μ„ 톡해 ν†΅ν•©λœ 잠재 곡간을 ν•™μŠ΅ν•©λ‹ˆλ‹€. 125K μ‹œκ°„μ˜ λΉ„λ””μ˜€μ™€ 1.6μ–΅ 개의 이벀트 주석을 ν¬ν•¨ν•œ λŒ€κ·œλͺ¨ λ°μ΄ν„°μ…‹μœΌλ‘œ 사전 ν•™μŠ΅μ„ μ§„ν–‰ν–ˆμŠ΅λ‹ˆλ‹€. μ‹€ν—˜ κ²°κ³Ό, ν•™μŠ΅λœ 잠재 곡간이 ν…μŠ€νŠΈ 생성, 이미지 예츑, λ‘œλ΄‡ 행동 생성 λ“± λ‹€μ–‘ν•œ λ‹€μš΄μŠ€νŠΈλ¦Ό νƒœμŠ€ν¬μ—μ„œ λ›°μ–΄λ‚œ μ„±λŠ₯을 λ³΄μž„μ„ μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ£Όμš” λ‚΄μš© (Key Points)

  • λ‹¨μˆœ μ˜ˆμΈ‘μ„ λ„˜μ–΄μ„  μ°¨μ„ΈλŒ€ μƒνƒœ 예츑(Next-State-Prediction) μ€‘μ‹¬μ˜ 톡합 λͺ¨λΈλ§
  • λ¬΄μ˜μ‹μ (λΉ„λ””μ˜€) 및 μ˜μ‹μ (μ–Έμ–΄/VQA) ν•™μŠ΅μ„ κ²°ν•©ν•œ 이쀑 ν•™μŠ΅ νŒ¨λŸ¬λ‹€μž„
  • κ³ μ •λœ λ°±λ³Έκ³Ό κ²½λŸ‰ 디코더λ₯Ό ν™œμš©ν•˜μ—¬ λ‹€μ–‘ν•œ λͺ¨λ‹¬λ¦¬ν‹°λ‘œ ν™•μž₯ κ°€λŠ₯ν•œ ꡬ쑰

πŸ’‘ 싀무적 κ°€μΉ˜ (Relevance)

물리적 ν™˜κ²½μ— λŒ€ν•œ 이해가 ν•„μš”ν•œ λ‘œλ΄‡ 곡학(Embodied AI)μ΄λ‚˜ κ³ λ„ν™”λœ λΉ„λ””μ˜€ 생성 λͺ¨λΈ 개발 μ‹œ 핡심적인 μ•„ν‚€ν…μ²˜ μ˜κ°μ„ μ œκ³΅ν•©λ‹ˆλ‹€.

βœ… μΆ”μ²œ μ•‘μ…˜ (Actionable Items)

  • μ œμ•ˆλœ 이쀑 ν•™μŠ΅(Unconscious/Conscious) ꡬ쑰λ₯Ό μ†Œκ·œλͺ¨ λΉ„λ””μ˜€ 데이터셋에 μ μš©ν•΄λ³΄κΈ°
  • Frozen Backbone 기반의 κ²½λŸ‰ 디코더 ν•™μŠ΅ λ°©μ‹μ˜ νš¨μœ¨μ„± κ²€μ¦ν•˜κΈ°
  • νŠΉμ • 도메인(예: μžμœ¨μ£Όν–‰)의 μƒνƒœ 전이 λͺ¨λΈλ§μ— 적용 κ°€λŠ₯μ„± κ²€ν† ν•˜κΈ°