Thinking with Visual Grounding
Paper ID: 2606.16122 โข 4 Upvotes
VLM Reasoning Reinforcement Learning Object Grounding Agent Vision Benchmark Distillation
๐ ํต์ฌ ์์ฝ
์ถ๋ก ๊ณผ์ ์์ ํ
์คํธ์ ์๊ฐ์ ๊ทผ๊ฑฐ(Point/Box)๋ฅผ ๊ฒฐํฉํ์ฌ ๋ชจ๋ธ์ ๋
ผ๋ฆฌ์ ๊ฒ์ฆ ๊ฐ๋ฅ์ฑ๊ณผ ์ฑ๋ฅ์ ๋์ด๋ ์๋ก์ด ์๊ฐ์ ์ฌ๊ณ ๋ฐฉ์ ์ ์
๐ ์์ธ ๋ด์ฉ
์ต๊ทผ VLM์ ์์ฐ์ด ์ถ๋ก ์ ์์ฑํ์ง๋ง, ์ถ๋ก ์ ๊ทผ๊ฑฐ๊ฐ ๋๋ ์ด๋ฏธ์ง ์์ญ์ด ๋ช
์๋์ง ์์ ๊ฒ์ฆ๊ณผ ๊ฐ๋
์ด ์ด๋ ต๋ค๋ ๋ฌธ์ ๊ฐ ์์ต๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ํ
์คํธ ์ถ๋ก ๊ณผ ํจ๊ป ์ด๋ฏธ์ง ๋ด ๊ฐ์ฒด๋ฅผ ์ (Point)์ด๋ ๋ฐ์ค(Box)๋ก ๋ช
์ํ๋ '์๊ฐ์ ๊ทผ๊ฑฐ ๊ธฐ๋ฐ ์ฌ๊ณ (Visually Grounded Thinking)' ๋ฐฉ์์ ๋์
ํ์ต๋๋ค. ํ์ต์ ์ํด SAM3 ๊ธฐ๋ฐ ์์ด์ ํธ๋ฅผ ํ์ฉํ ํ์ฅ ๊ฐ๋ฅํ ํฉ์ฑ ๋ฐ์ดํฐ ํ์ดํ๋ผ์ธ๊ณผ, ์ ๋ต ์ฌ๋ถ์ ๊ทผ๊ฑฐ ์ผ์น๋๋ฅผ ๋์์ ๊ณ ๋ คํ๋ 'Grounding-aware RL'์ ์ ์ํ์ต๋๋ค. ์คํ ๊ฒฐ๊ณผ, Gemma3-4B ๋ชจ๋ธ์ ์ด ๋ฐฉ์์ ์ ์ฉํ์ ๋ ์นด์ดํ
๋ฐ ๊ณต๊ฐ ์ถ๋ก ๋ฒค์น๋งํฌ์์ ๊ธฐ์กด ๋ชจ๋ธ ๋ฐ ๋น-๊ทผ๊ฑฐ ๋ชจ๋ธ๋ณด๋ค ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ํนํ ๊ณต๊ฐ ์ถ๋ก ์์
์์ ์ํ ๋ชจ๋ธ์ด ๋ ํฐ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์ํํ๋ ๊ฒฐ๊ณผ๋ฅผ ๋ํ๋์ต๋๋ค.
๐ ์ฃผ์ ๋ด์ฉ (Key Points)
- ํ ์คํธ ์ถ๋ก ๊ณผ ์๊ฐ์ ๊ทผ๊ฑฐ(Point/Box)๋ฅผ ๊ต์ฐจ ๋ฐฐ์นํ๋ ์๋ก์ด ์ถ๋ก ํ๋ ์์ํฌ ์ ์
- SAM3 ๊ธฐ๋ฐ์ ํฉ์ฑ ๋ฐ์ดํฐ ํ์ดํ๋ผ์ธ์ ํตํ ๋๊ท๋ชจ ์๊ฐ์ ์ถ๋ก ๋ฐ์ดํฐ ๊ตฌ์ถ
- ์ ๋ต ์ ํ๋์ ์๊ฐ์ ๊ทผ๊ฑฐ ์ผ์น๋๋ฅผ ๊ฒฐํฉํ ๊ฐํํ์ต(Grounding-aware RL) ๊ธฐ๋ฒ ๋์
๐ก ์ค๋ฌด์ ๊ฐ์น (Relevance)
๋ชจ๋ธ์ ์ถ๋ก ๊ณผ์ ์ด ์ด๋ฏธ์ง์ ์ด๋ ๋ถ๋ถ์ ๊ธฐ๋ฐํ๋์ง ๋ช
์ํ๋ฏ๋ก, ๊ฒฐ๊ณผ์ ์ ๋ขฐ์ฑ์ ๋์ด๊ณ ๋๋ฒ๊น
๋ฐ ๊ฒ์ฆ์ด ์ฉ์ดํ AI ์์ด์ ํธ ๊ฐ๋ฐ์ด ๊ฐ๋ฅํฉ๋๋ค.
โ ์ถ์ฒ ์ก์ (Actionable Items)
- SAM๊ณผ ๊ฐ์ ์ธ๊ทธ๋ฉํ ์ด์ ๋ชจ๋ธ์ ํ์ฉํ ๋ฐ์ดํฐ ํฉ์ฑ ํ์ดํ๋ผ์ธ ๊ตฌ์ถ ํ ์คํธ
- RLHF ๊ณผ์ ์์ ํ ์คํธ ์ ๋ต ์ธ์ ์๊ฐ์ ๊ทผ๊ฑฐ(Grounding) ๋ณด์ ํจ์ ์ค๊ณ ์คํ
- ์ํ ๋ชจ๋ธ(SLM)์ ์๊ฐ์ ๊ทผ๊ฑฐ ํ์ต์ ์ ์ฉํ์ฌ ์ฑ๋ฅ ํฅ์ ํญ ํ์ธ