S-Agent: Spatial Tool-Use Elicits Reasoning for Spatial Intelligence
Paper ID: 2606.20515 โข 25 Upvotes
Agent Spatial-Intelligence VLM 3D-Vision Reasoning Vision Video Benchmark Inference
๐ ํต์ฌ ์์ฝ
์ ์ ์ด๋ฏธ์ง ์ธ์์ ๋์ด ์๊ณต๊ฐ์ ์ฆ๊ฑฐ ์ถ์ ์ ํตํด 3D ๊ณต๊ฐ ์ง๋ฅ์ ๊ตฌํํ๋ ์์ด์ ํธ ํ๋ ์์ํฌ
๐ ์์ธ ๋ด์ฉ
๊ธฐ์กด์ VLM ๊ธฐ๋ฐ ์์ด์ ํธ๋ ์ ์ ์ธ ํ๋ ์ ๋จ์์ ๊ด์ฐฐ์ ์์กดํ์ฌ ์ฐ์์ ์ธ 3D ํ๊ฒฝ์ ๋ํ ์ถ๋ก ์ ํ๊ณ๊ฐ ์์์ต๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด S-Agent๋ ๊ณต๊ฐ ์ถ๋ก ์ ์๊ณต๊ฐ์ ์ฆ๊ฑฐ๋ฅผ ์ถ์ ํ๋ ๊ณผ์ ์ผ๋ก ์ฌ์ ์ํ๋ ์๋ก์ด ํจ๋ฌ๋ค์์ ์ ์ํฉ๋๋ค. VLM์ ์๋งจํฑ ํ๋๋๋ก ํ์ฉํ์ฌ ํ์ํ ์ฆ๊ฑฐ๋ฅผ ๊ฒฐ์ ํ๊ณ , ๊ณ์ธต์ ๊ณต๊ฐ ๋๊ตฌ์ ์ ๋ฌธ๊ฐ ๋ชจ๋ธ์ ํตํด 2D ๊ฐ์ฒด๋ฅผ 3D ๊ธฐํํ์ ์ ๋ณด๋ก ๋ณํ ๋ฐ ํตํฉํฉ๋๋ค. ๋ํ Scene Memory์ Agent Memory๋ฅผ ํตํด ๋ณํํ๋ ์ฅ๋ฉด ์ํ์ ์ถ๋ก ๋งฅ๋ฝ์ ์ ์งํฉ๋๋ค. ์คํ ๊ฒฐ๊ณผ, S-Agent๋ ๋ณ๋์ ํ์ต ์์ด๋ ๊ธฐ์กด VLM์ ์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์์์ผฐ์ผ๋ฉฐ, ์์ฑ๋ ๋ฐ์ดํฐ๋ก SFT๋ฅผ ์งํํ S-Agent-8B๋ ์ํ ๋ชจ๋ธ์์๋ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ์
์ฆํ์ต๋๋ค.
๐ ์ฃผ์ ๋ด์ฉ (Key Points)
- ํ๋ ์ ์ค์ฌ ์ธ์์ ๋์ด์ ์๊ณต๊ฐ์ ์ฆ๊ฑฐ ์ถ์ (Spatio-temporal evidence accumulation) ๋ฐฉ์ ๋์
- VLM(ํ๋๋)๊ณผ ๊ณ์ธต์ ๊ณต๊ฐ ๋๊ตฌ(์ ๋ฌธ๊ฐ)๋ฅผ ๊ฒฐํฉํ ์์ด์ ํธ ๊ตฌ์กฐ ์ค๊ณ
- ์ฅ๋ฉด ์ํ ์ ์ง๋ฅผ ์ํ Scene Memory์ ์ถ๋ก ๋งฅ๋ฝ ์ ์ง๋ฅผ ์ํ Agent Memory ๋ฉ์ปค๋์ฆ
๐ก ์ค๋ฌด์ ๊ฐ์น (Relevance)
๋จ์ ์ด๋ฏธ์ง ์บก์
๋์ ๋์ด ๋ก๋ด ์ ์ด๋ ๋์งํธ ํธ์ ๋ฑ ์ค์ 3D ํ๊ฒฝ ์ํธ์์ฉ์ ์ํ ์์ด์ ํธ ์ค๊ณ ํจํด์ ์ ์ํฉ๋๋ค.
โ ์ถ์ฒ ์ก์ (Actionable Items)
- ๊ธฐ์กด VLM์ 2D-to-3D ๊ธฐํํ ๋๊ตฌ๋ฅผ ๊ฒฐํฉํ ์ํฌํ๋ก์ฐ ๊ตฌํ ํ ์คํธ
- ๋ฉํฐ๋ทฐ ์ด๋ฏธ์ง ์ ๋ ฅ ์ ๋ฉ๋ชจ๋ฆฌ ๋ฉ์ปค๋์ฆ(Scene/Agent Memory)์ ํจ๊ณผ ๊ฒ์ฆ
- S-300K์ ๊ฐ์ ๊ณ ํ์ง ๊ณต๊ฐ ์ถ๋ก ๋ฐ์ดํฐ์ ์ ํ์ฉํ ์ํ ๋ชจ๋ธ SFT ์คํ