RADIO-ViPE: Online Tightly Coupled Multi-Modal Fusion for Open-Vocabulary Semantic SLAM in Dynamic Environments
Paper ID: 2604.26067 β’ 40 Upvotes
SLAM Vision Robotics Multi-modal Semantic Agent Video Benchmark
π ν΅μ¬ μμ½
λ¨μΌ μΉ΄λ©λΌ μμλ§μΌλ‘ λμ νκ²½μμ 물체λ₯Ό μΈμνκ³ 3D 곡κ°μ λ§€ννλ μ¨λΌμΈ SLAM μμ€ν
μΌλ‘, λ‘λ΄ λ° λΉλμ€ λΆμμ μ€μ μ μ©μ κ°λ₯νκ² ν©λλ€.
π μμΈ λ΄μ©
κΈ°μ‘΄μ μλ§¨ν± SLAM μμ€ν
μ 보μ λ RGB-D μ
λ ₯κ³Ό μ μ νκ²½μ κ°μ νμ¬ μ€μ λ°°ν¬μ νκ³κ° μμμ΅λλ€. λ³Έ μ°κ΅¬λ μ΄λ¬ν λ¬Έμ λ₯Ό ν΄κ²°νκΈ° μν΄ μ¬μ μΉ΄λ©λΌ μ 보λ κΉμ΄ μΌμ μμ΄λ μμ λͺ¨λ
Έ RGB λΉλμ€ μ€νΈλ¦Όμμ μ§μ μλνλ μ¨λΌμΈ μλ§¨ν± SLAM μμ€ν
μΈ RADIO-ViPEλ₯Ό μ μν©λλ€. RADIO-ViPEλ λΉμ λ° μΈμ΄ κΈ°λ°μ λ©ν°λͺ¨λ¬ μλ² λ©μ κΈ°ννμ μ₯λ©΄ μ 보μ κΈ΄λ°νκ² κ²°ν©νλ©°, λμ κ°μ²΄μ νκ²½ λ³νλ₯Ό μ²λ¦¬νκΈ° μν κ°κ±΄ν 컀λμ μ¬μ©ν©λλ€. μ€ν κ²°κ³Ό, λμ TUM-RGBD λ²€μΉλ§ν¬μμ μ΅μ²¨λ¨ μ±λ₯μ λ¬μ±νμΌλ©°, 보μ λ λ°μ΄ν°λ₯Ό μ¬μ©νλ μ€νλΌμΈ λ°©μκ³Ό λΉκ΅ν΄λ κ²½μλ ₯ μλ κ²°κ³Όλ₯Ό 보μμ΅λλ€. μ΄λ μμ¨ λ‘λ΄ λ° μ μ½ μλ λΉλμ€ μ€νΈλ¦Όμμ κ°κ±΄ν κ°λ°©ν μ΄ν μλ§¨ν± κ·ΈλΌμ΄λ©μ κ°λ₯νκ² νμ¬ μ€μ μ μ©μ μ€μν κ°κ·Ήμ λ©μλλ€.
π μ£Όμ λ΄μ© (Key Points)
- μ¬μ 보μ μ΄λ κΉμ΄ μΌμ μμ΄ λ¨μΌ λͺ¨λ Έ RGB λΉλμ€λ§μΌλ‘ λμ νκ²½μμ κ°λ°©ν μ΄ν μλ§¨ν± SLAMμ μ¨λΌμΈμΌλ‘ μν.
- λΉμ -μΈμ΄ λ©ν°λͺ¨λ¬ μλ² λ©κ³Ό κΈ°ννμ μ₯λ©΄ μ 보λ₯Ό μ΄κΈ°ν, μ΅μ ν, ν©ν° κ·Έλν μ°κ²° λ¨κ³μμ κΈ΄λ°νκ² κ²°ν©.
- μμ§μ΄λ κ°μ²΄μ νκ²½ λ³νμ κ°κ±΄νκ² λμνλ μ μν λ‘λ²μ€νΈ 컀λ κΈ°λ° μ΅μ ν λμ .
π‘ μ€λ¬΄μ κ°μΉ (Relevance)
κ°λ°μλ€μ κ°λΉμΌ κΉμ΄ μΌμλ 볡μ‘ν μΉ΄λ©λΌ 보μ μμ΄λ λ¨μΌ μΉ΄λ©λΌλ§μΌλ‘ λ‘λ΄μ΄λ μμ¨ μμ€ν
μ΄ μ£Όλ³ νκ²½μ κ°μ²΄λ₯Ό μμ°μ΄ μΏΌλ¦¬λ‘ μ΄ν΄νκ³ 3D 곡κ°μ λ§€νν μ μκ² λ©λλ€. μ΄λ μΌμ ꡬμ±κ³Ό μμ€ν
λ°°ν¬λ₯Ό ν¬κ² λ¨μννμ¬ λ€μν μ€μ νκ²½μμμ μ μ© κ°λ₯μ±μ λμ
λλ€.
β μΆμ² μ‘μ (Actionable Items)
- λ€μν μ€λ΄μΈ λͺ¨λ Έ λΉλμ€ λ°μ΄ν°μ (μ: λλ‘ , μ€λ§νΈν° 촬μ μμ)μ μμ€ν μ μ μ©νμ¬ κ°κ±΄μ± λ° μ±λ₯ μ ν μμΈ λΆμ.
- κ°λ¨ν λͺ¨λ°μΌ λ‘λ΄ νλ«νΌμ ν΅ν©νμ¬ μ€μκ° μ±λ₯, κ°μ²΄ μνΈμμ© λ° λ΄λΉκ²μ΄μ μ§μ κ°λ₯μ± νκ°.
- RADIO μΈ λ€λ₯Έ λΉμ -μΈμ΄ νμ΄λ°μ΄μ λͺ¨λΈ(μ: CLIP, DINO)μ μλ² λ© μμ€λ‘ κ΅μ²΄νμ¬ μ±λ₯ λ³ν λ° νΉμ λλ©μΈμ λν μ ν©μ± λΉκ΅.