ReVSI: Rebuilding Visual Spatial Intelligence Evaluation for Accurate Assessment of VLM 3D Reasoning
Paper ID: 2604.24300 โข 53 Upvotes
Vision VLM 3D Evaluation Benchmark Reasoning Video
๐ ํต์ฌ ์์ฝ
VLM์ 3D ๊ณต๊ฐ ์ถ๋ก ๋ฅ๋ ฅ ํ๊ฐ๊ฐ ๊ธฐ์กด ๋ฐฉ์์ ํ๊ณ๋ฅผ ๋์ด ์ค์ ์
๋ ฅ์ ๊ธฐ๋ฐํ ์ ํํ๊ณ ์ง๋จ ๊ฐ๋ฅํ ์๋ก์ด ๋ฒค์น๋งํฌ ReVSI๋ฅผ ์ ์ํ์ฌ ๋ชจ๋ธ ๊ฐ์ ์ ๊ธฐ์ฌํฉ๋๋ค.
๐ ์์ธ ๋ด์ฉ
๊ธฐ์กด VLM์ ๊ณต๊ฐ ์ง๋ฅ ํ๊ฐ๋ 3D ์ฃผ์์ ๋ถ์ ํ์ฑ ๋ฐ ๋ชจ๋ธ์ ์ค์ ์
๋ ฅ(ํฌ์ ํ๋ ์)๊ณผ ๋ค๋ฅธ ์ ์ ๋๋ฌธ์ ์ฒด๊ณ์ ์ผ๋ก ์ ํจํ์ง ์์์ต๋๋ค. ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ๋ณธ ์ฐ๊ตฌ๋ ReVSI๋ผ๋ ์๋ก์ด ๋ฒค์น๋งํฌ์ ํ๋กํ ์ฝ์ ๋์
ํ์ต๋๋ค. ReVSI๋ 5๊ฐ ๋ฐ์ดํฐ์
์ 381๊ฐ ์ฅ๋ฉด์ ๋ํด ๊ฐ์ฒด์ ๊ธฐํํ์ ์ ๋ณด๋ฅผ ์ฌ์ฃผ์ํ๊ณ , ์๊ฒฉํ ํธํฅ ์ํ ๋ฐ ์ธ๊ฐ ๊ฒ์ฆ์ ํตํด QA ์์ ์ฌ์์ฑํ์ฌ ํ๊ฐ์ ์ ํจ์ฑ์ ๋์์ต๋๋ค. ๋ํ, ๋ค์ํ ํ๋ ์ ์์ฐ๊ณผ ๊ฐ์ฒด ๊ฐ์์ฑ ๋ฉํ๋ฐ์ดํฐ๋ฅผ ์ ๊ณตํ์ฌ ์ง๋จ ๋ถ์์ ์ ์ด ๊ฐ๋ฅ์ฑ์ ํฅ์์์ผฐ์ต๋๋ค. ReVSI๋ฅผ ํตํ ํ๊ฐ ๊ฒฐ๊ณผ, ๊ธฐ์กด ๋ฒค์น๋งํฌ์์๋ ๊ฐ๋ ค์ก๋ VLM์ ์ฒด๊ณ์ ์ธ ์คํจ ๋ชจ๋๋ฅผ ๋ฐํ๋ด์ด ๊ณต๊ฐ ์ง๋ฅ์ ๋ํ ๋ ์ ๋ขฐํ ์ ์๋ ์ง๋จ์ ํ๊ฐ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ์ต๋๋ค.
๐ ์ฃผ์ ๋ด์ฉ (Key Points)
- VLM 3D ์ถ๋ก ํ๊ฐ์ ์ ํจ์ฑ ๋ฐ ์ ํ์ฑ ํฅ์
- ์ค์ ๋ชจ๋ธ ์ ๋ ฅ์ ๊ธฐ๋ฐํ ์๋ก์ด ๋ฒค์น๋งํฌ ๋ฐ ํ๋กํ ์ฝ ReVSI ์ ์
- ์๊ฒฉํ ์ฌ์ฃผ์, QA ์ ์ฌ์์ฑ ๋ฐ ์ธ๊ฐ ๊ฒ์ฆ์ ํตํ ๋ฐ์ดํฐ ํ์ง ๊ฐ์
๐ก ์ค๋ฌด์ ๊ฐ์น (Relevance)
๊ฐ๋ฐ์๋ ReVSI ๋ฒค์น๋งํฌ๋ฅผ ํ์ฉํ์ฌ ์์ ๋ค์ VLM์ด 3D ๊ณต๊ฐ ์ถ๋ก ์์ ์ด๋ค ์ฝ์ ์ ๊ฐ์ง๋์ง ์ ํํ ํ์
ํ๊ณ , ์ด๋ฅผ ๋ฐํ์ผ๋ก ๋ชจ๋ธ์ ์ ๋ขฐ์ฑ๊ณผ ์ฑ๋ฅ์ ํฅ์์ํฌ ์ ์์ต๋๋ค.
โ ์ถ์ฒ ์ก์ (Actionable Items)
- ์์ ์ด ๊ฐ๋ฐํ VLM์ ReVSI ๋ฒค์น๋งํฌ๋ก ํ๊ฐํ์ฌ 3D ์ถ๋ก ์ฑ๋ฅ์ ์ง๋จํด ๋ณด์ธ์.
- ReVSI๊ฐ ์ ๊ณตํ๋ ๋ค์ํ ํ๋ ์ ์์ฐ(16/32/64/all)์ผ๋ก ๋ชจ๋ธ์ ํ ์คํธํ์ฌ ์ ๋ ฅ ํ๋ ์ ์์ ๋ฐ๋ฅธ ์ฑ๋ฅ ๋ณํ๋ฅผ ๋ถ์ํด ๋ณด์ธ์.
- ReVSI์์ ๋ฐํ์ง VLM์ ์ฒด๊ณ์ ์ธ ์คํจ ๋ชจ๋๋ฅผ ์ฐธ๊ณ ํ์ฌ ๋ชจ๋ธ ๊ฐ์ ๋ฐฉํฅ์ ๋ชจ์ํด ๋ณด์ธ์.