Thinking with Visual Grounding

Paper ID: 2606.16122 • 4 Upvotes

VLM Reasoning Reinforcement Learning Object Grounding Agent Vision Benchmark Distillation

📝 핵심 요약

추론 과정에서 텍스트와 시각적 근거(Point/Box)를 결합하여 모델의 논리적 검증 가능성과 성능을 높이는 새로운 시각적 사고 방식 제안

📖 상세 내용

최근 VLM은 자연어 추론을 생성하지만, 추론의 근거가 되는 이미지 영역이 명시되지 않아 검증과 감독이 어렵다는 문제가 있습니다. 이를 해결하기 위해 텍스트 추론과 함께 이미지 내 객체를 점(Point)이나 박스(Box)로 명시하는 '시각적 근거 기반 사고(Visually Grounded Thinking)' 방식을 도입했습니다. 학습을 위해 SAM3 기반 에이전트를 활용한 확장 가능한 합성 데이터 파이프라인과, 정답 여부와 근거 일치도를 동시에 고려하는 'Grounding-aware RL'을 제안했습니다. 실험 결과, Gemma3-4B 모델에 이 방식을 적용했을 때 카운팅 및 공간 추론 벤치마크에서 기존 모델 및 비-근거 모델보다 뛰어난 성능을 보였습니다. 특히 공간 추론 작업에서 소형 모델이 더 큰 모델의 성능을 상회하는 결과를 나타냈습니다.

🔑 주요 내용 (Key Points)

텍스트 추론과 시각적 근거(Point/Box)를 교차 배치하는 새로운 추론 프레임워크 제안
SAM3 기반의 합성 데이터 파이프라인을 통한 대규모 시각적 추론 데이터 구축
정답 정확도와 시각적 근거 일치도를 결합한 강화학습(Grounding-aware RL) 기법 도입

💡 실무적 가치 (Relevance)

모델의 추론 과정이 이미지의 어느 부분에 기반하는지 명시하므로, 결과의 신뢰성을 높이고 디버깅 및 검증이 용이한 AI 에이전트 개발이 가능합니다.

✅ 추천 액션 (Actionable Items)

SAM과 같은 세그멘테이션 모델을 활용한 데이터 합성 파이프라인 구축 테스트
RLHF 과정에서 텍스트 정답 외에 시각적 근거(Grounding) 보상 함수 설계 실험
소형 모델(SLM)에 시각적 근거 학습을 적용하여 성능 향상 폭 확인

View on Hugging Face View PDF (arXiv)