Orca: The World is in Your Mind
Paper ID: 2606.30534 β’ 176 Upvotes
World Model Multimodal Embodied AI Self-Supervised Learning Vision Video Evaluation
π ν΅μ¬ μμ½
μ°¨μΈλ λ²μ© μλ λͺ¨λΈλ‘μ, λΉλμ€μ μΈμ΄λ₯Ό ν΅ν©ν μ μ¬ κ³΅κ°μ ν΅ν΄ μ΄ν΄, μμΈ‘, νλμ λμμ μννλ νλ μμν¬
π μμΈ λ΄μ©
κΈ°μ‘΄μ λͺ¨λΈλ€μ λ¨μν λ€μ ν ν°μ΄λ νλ μ μμΈ‘μ μΉμ€νμ¬ λ³΅μ‘ν μΈκ³μ λ³νλ₯Ό μ¨μ ν λ΄μλ΄μ§ λͺ»νλ νκ³κ° μμμ΅λλ€. μ΄λ₯Ό ν΄κ²°νκΈ° μν΄ Orcaλ μ°¨μΈλ μν μμΈ‘(Next-State-Prediction)μ λͺ©νλ‘ νλ λ²μ© μλ νμ΄λ°μ΄μ
λͺ¨λΈμ μ μν©λλ€. λͺ¨λΈμ μ°μμ μΈ λΉλμ€λ₯Ό ν΅ν '무μμμ νμ΅'κ³Ό μΈμ΄ κΈ°λ° μ΄λ²€νΈλ₯Ό ν΅ν 'μμμ νμ΅'μ΄λΌλ λ κ°μ§ μνΈ λ³΄μμ ν¨λ¬λ€μμ ν΅ν΄ ν΅ν©λ μ μ¬ κ³΅κ°μ νμ΅ν©λλ€. 125K μκ°μ λΉλμ€μ 1.6μ΅ κ°μ μ΄λ²€νΈ μ£Όμμ ν¬ν¨ν λκ·λͺ¨ λ°μ΄ν°μ
μΌλ‘ μ¬μ νμ΅μ μ§ννμ΅λλ€. μ€ν κ²°κ³Ό, νμ΅λ μ μ¬ κ³΅κ°μ΄ ν
μ€νΈ μμ±, μ΄λ―Έμ§ μμΈ‘, λ‘λ΄ νλ μμ± λ± λ€μν λ€μ΄μ€νΈλ¦Ό νμ€ν¬μμ λ°μ΄λ μ±λ₯μ 보μμ μ
μ¦νμ΅λλ€.
π μ£Όμ λ΄μ© (Key Points)
- λ¨μ μμΈ‘μ λμ΄μ μ°¨μΈλ μν μμΈ‘(Next-State-Prediction) μ€μ¬μ ν΅ν© λͺ¨λΈλ§
- 무μμμ (λΉλμ€) λ° μμμ (μΈμ΄/VQA) νμ΅μ κ²°ν©ν μ΄μ€ νμ΅ ν¨λ¬λ€μ
- κ³ μ λ λ°±λ³Έκ³Ό κ²½λ λμ½λλ₯Ό νμ©νμ¬ λ€μν λͺ¨λ¬λ¦¬ν°λ‘ νμ₯ κ°λ₯ν ꡬ쑰
π‘ μ€λ¬΄μ κ°μΉ (Relevance)
물리μ νκ²½μ λν μ΄ν΄κ° νμν λ‘λ΄ κ³΅ν(Embodied AI)μ΄λ κ³ λνλ λΉλμ€ μμ± λͺ¨λΈ κ°λ° μ ν΅μ¬μ μΈ μν€ν
μ² μκ°μ μ 곡ν©λλ€.
β μΆμ² μ‘μ (Actionable Items)
- μ μλ μ΄μ€ νμ΅(Unconscious/Conscious) ꡬ쑰λ₯Ό μκ·λͺ¨ λΉλμ€ λ°μ΄ν°μ μ μ μ©ν΄λ³΄κΈ°
- Frozen Backbone κΈ°λ°μ κ²½λ λμ½λ νμ΅ λ°©μμ ν¨μ¨μ± κ²μ¦νκΈ°
- νΉμ λλ©μΈ(μ: μμ¨μ£Όν)μ μν μ μ΄ λͺ¨λΈλ§μ μ μ© κ°λ₯μ± κ²ν νκΈ°