RADIO-ViPE: Online Tightly Coupled Multi-Modal Fusion for Open-Vocabulary Semantic SLAM in Dynamic Environments

Paper ID: 2604.26067 • 40 Upvotes

SLAM Vision Robotics Multi-modal Semantic Agent Video Benchmark

RADIO-ViPE: Online Tightly Coupled Multi-Modal Fusion for Open-Vocabulary Semantic SLAM in Dynamic Environments

📝 핵심 요약

단일 카메라 영상만으로 동적 환경에서 물체를 인식하고 3D 공간에 매핑하는 온라인 SLAM 시스템으로, 로봇 및 비디오 분석의 실제 적용을 가능하게 합니다.

📖 상세 내용

기존의 시맨틱 SLAM 시스템은 보정된 RGB-D 입력과 정적 환경을 가정하여 실제 배포에 한계가 있었습니다. 본 연구는 이러한 문제를 해결하기 위해 사전 카메라 정보나 깊이 센서 없이도 원시 모노 RGB 비디오 스트림에서 직접 작동하는 온라인 시맨틱 SLAM 시스템인 RADIO-ViPE를 제안합니다. RADIO-ViPE는 비전 및 언어 기반의 멀티모달 임베딩을 기하학적 장면 정보와 긴밀하게 결합하며, 동적 객체와 환경 변화를 처리하기 위한 강건한 커널을 사용합니다. 실험 결과, 동적 TUM-RGBD 벤치마크에서 최첨단 성능을 달성했으며, 보정된 데이터를 사용하는 오프라인 방식과 비교해도 경쟁력 있는 결과를 보였습니다. 이는 자율 로봇 및 제약 없는 비디오 스트림에서 강건한 개방형 어휘 시맨틱 그라운딩을 가능하게 하여 실제 적용의 중요한 간극을 메웁니다.

🔑 주요 내용 (Key Points)

사전 보정이나 깊이 센서 없이 단일 모노 RGB 비디오만으로 동적 환경에서 개방형 어휘 시맨틱 SLAM을 온라인으로 수행.
비전-언어 멀티모달 임베딩과 기하학적 장면 정보를 초기화, 최적화, 팩터 그래프 연결 단계에서 긴밀하게 결합.
움직이는 객체와 환경 변화에 강건하게 대응하는 적응형 로버스트 커널 기반 최적화 도입.

💡 실무적 가치 (Relevance)

개발자들은 값비싼 깊이 센서나 복잡한 카메라 보정 없이도 단일 카메라만으로 로봇이나 자율 시스템이 주변 환경의 객체를 자연어 쿼리로 이해하고 3D 공간에 매핑할 수 있게 됩니다. 이는 센서 구성과 시스템 배포를 크게 단순화하여 다양한 실제 환경에서의 적용 가능성을 높입니다.

✅ 추천 액션 (Actionable Items)

다양한 실내외 모노 비디오 데이터셋(예: 드론, 스마트폰 촬영 영상)에 시스템을 적용하여 강건성 및 성능 저하 요인 분석.
간단한 모바일 로봇 플랫폼에 통합하여 실시간 성능, 객체 상호작용 및 내비게이션 지원 가능성 평가.
RADIO 외 다른 비전-언어 파운데이션 모델(예: CLIP, DINO)을 임베딩 소스로 교체하여 성능 변화 및 특정 도메인에 대한 적합성 비교.

View on Hugging Face View PDF (arXiv)