S-Agent: Spatial Tool-Use Elicits Reasoning for Spatial Intelligence

Paper ID: 2606.20515 • 25 Upvotes

Agent Spatial-Intelligence VLM 3D-Vision Reasoning Vision Video Benchmark Inference

S-Agent: Spatial Tool-Use Elicits Reasoning for Spatial Intelligence

📝 핵심 요약

정적 이미지 인식을 넘어 시공간적 증거 축적을 통해 3D 공간 지능을 구현하는 에이전트 프레임워크

📖 상세 내용

기존의 VLM 기반 에이전트는 정적인 프레임 단위의 관찰에 의존하여 연속적인 3D 환경에 대한 추론에 한계가 있었습니다. 이를 해결하기 위해 S-Agent는 공간 추론을 시공간적 증거를 축적하는 과정으로 재정의하는 새로운 패러다임을 제안합니다. VLM을 시맨틱 플래너로 활용하여 필요한 증거를 결정하고, 계층적 공간 도구와 전문가 모델을 통해 2D 객체를 3D 기하학적 정보로 변환 및 통합합니다. 또한 Scene Memory와 Agent Memory를 통해 변화하는 장면 상태와 추론 맥락을 유지합니다. 실험 결과, S-Agent는 별도의 학습 없이도 기존 VLM의 성능을 크게 향상시켰으며, 생성된 데이터로 SFT를 진행한 S-Agent-8B는 소형 모델임에도 강력한 성능을 입증했습니다.

🔑 주요 내용 (Key Points)

프레임 중심 인식을 넘어선 시공간적 증거 축적(Spatio-temporal evidence accumulation) 방식 도입
VLM(플래너)과 계층적 공간 도구(전문가)를 결합한 에이전트 구조 설계
장면 상태 유지를 위한 Scene Memory와 추론 맥락 유지를 위한 Agent Memory 메커니즘

💡 실무적 가치 (Relevance)

단순 이미지 캡셔닝을 넘어 로봇 제어나 디지털 트윈 등 실제 3D 환경 상호작용을 위한 에이전트 설계 패턴을 제시합니다.

✅ 추천 액션 (Actionable Items)

기존 VLM에 2D-to-3D 기하학 도구를 결합한 워크플로우 구현 테스트
멀티뷰 이미지 입력 시 메모리 메커니즘(Scene/Agent Memory)의 효과 검증
S-300K와 같은 고품질 공간 추론 데이터셋을 활용한 소형 모델 SFT 실험

View on Hugging Face View PDF (arXiv)