Current World Models Lack a Persistent State Core
Paper ID: 2606.20545 β’ 6 Upvotes
World Models Computer Vision AI Evaluation Physical Reasoning Vision Video Benchmark Evaluation
π ν΅μ¬ μμ½
νμ¬μ μλ λͺ¨λΈμ κ΄μ°°λμ§ μλ μν©μμλ 물리μ μνκ° μ§μλλ 'λ΄λΆ μν μ½μ΄'κ° κ²°μ¬λμ΄ μμμ μ¦λͺ
ν¨
π μμΈ λ΄μ©
AGIλ‘ ν₯νλ ν΅μ¬ κΈ°μ μΈ μλ λͺ¨λΈμ 물리μ μΈκ³μ μ§μμ μΈ μν λ³νλ₯Ό λͺ¨λΈλ§ν μ μμ΄μΌ ν©λλ€. κ·Έλ¬λ κΈ°μ‘΄ λ²€μΉλ§ν¬λ μκ°μ μΆ©μ€λμλ§ μ§μ€ν λΏ, κ΄μ°°μ΄ μ€λ¨λμμ λ μΈκ³κ° μ΄λ»κ² μ§ννλμ§λ νκ°νμ§ λͺ»νλ νκ³κ° μμ΅λλ€. μ΄λ₯Ό ν΄κ²°νκΈ° μν΄ μΉ΄λ©λΌ μμ§μμ κ΄μ°°μ± λ³νλ‘ μ μνκ³ , κ΄μ°° μ€λ¨ ν μ¬κ΄μ°° μ μν μΌκ΄μ±μ μΈ‘μ νλ WRBenchλ₯Ό μ μν©λλ€. 23κ° λͺ¨λΈμ λμμΌλ‘ μ€νν κ²°κ³Ό, νμ¬μ λͺ¨λΈλ€μ κ΄μ°°λμ§ μλ λμ μ¬κ±΄μ΄ μ§νλλ κ²μ΄ μλλΌ λ¨μν μ΄μ μνλ₯Ό μ μ§νλ 'νΈλνΉ μ·' λ°©μμ λ¨Έλ¬Όλ¬ μμμ΄ λ°νμ‘μ΅λλ€. μ΄λ¬ν λ¬Έμ λ λͺ¨λΈ κ·λͺ¨λ μ μ΄ λ°©μκ³Ό 무κ΄νκ² λνλλ©°, μ΄λ λ¨μν μ€μΌμΌμ
λ§μΌλ‘λ ν΄κ²°λ μ μλ κ·Όλ³Έμ μΈ μ€κ³ κ²°ν¨μμ μμ¬ν©λλ€.
π μ£Όμ λ΄μ© (Key Points)
- κ΄μ°°λμ§ μλ μνμμλ 물리μ μ¬κ±΄μ΄ μ§μλλ 'μ§μμ μν μ½μ΄'μ λΆμ¬ νμΈ
- μΉ΄λ©λΌ μμ§μμ κ°μ (Intervention)μΌλ‘ κ°μ£Όνμ¬ κ΄μ°°μ± λ³νλ₯Ό μΈ‘μ νλ WRBench λμ
- λͺ¨λΈ κ·λͺ¨(Scale)λ κΈ°ννμ μ¬μ μ§μλ§μΌλ‘λ ν΄κ²°λμ§ μλ κ·Όλ³Έμ νκ³ κ·λͺ
π‘ μ€λ¬΄μ κ°μΉ (Relevance)
λ¨μν λ€μ νλ μμ μ μμ±νλ κ²μ λμ΄, μμ΄μ νΈκ° 물리μ μΈκ³Όκ΄κ³λ₯Ό μ΄ν΄νκ³ μ₯κΈ°μ μΈ κ³νμ μΈμ°κΈ° μν ν΅μ¬ κ³Όμ λ₯Ό μ μν¨
β μΆμ² μ‘μ (Actionable Items)
- νμ¬ κ°λ° μ€μΈ λΉλμ€ μμ± λͺ¨λΈμ WRBenchλ₯Ό μ μ©νμ¬ μν μ§μμ± ν μ€νΈ
- κ΄μ°° μ€λ¨(Occlusion) μν©μμμ κ°μ²΄ μν λ³ν(State transition) μΆμ μ€ν
- λ¨μ ν½μ μΌκ΄μ±μ΄ μλ μΈκ³Όμ μν μ μ§ μ¬λΆλ₯Ό νκ° μ§νμ ν¬ν¨