PerceptionRubrics: Calibrating Multimodal Evaluation to Human Perception
Paper ID: 2606.28322 โข 32 Upvotes
Multimodal Evaluation VLM Vision-Language RAG Reasoning Vision Benchmark Distillation
๐ ํต์ฌ ์์ฝ
๊ธฐ์กด ๋ฒค์น๋งํฌ์ ํ์ ์ ๊ทน๋ณตํ๊ธฐ ์ํด ์ธ๋ฐํ ๋ฃจ๋ธ๋ฆญ(Rubric) ๊ธฐ๋ฐ์ ์๊ฒฉํ ๋ฉํฐ๋ชจ๋ฌ ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ์ ์ํจ
๐ ์์ธ ๋ด์ฉ
๊ธฐ์กด ๋ฉํฐ๋ชจ๋ฌ ๋ฒค์น๋งํฌ๋ ์ ์๊ฐ ํฌํ ์ํ์์๋ ๋ถ๊ตฌํ๊ณ ์ค์ ํ๊ฒฝ์์์ ์ทจ์ฝ์ฑ์ ์ ๋๋ก ๋ฐ์ํ์ง ๋ชปํ๋ ๋ฌธ์ ๊ฐ ์์ต๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋จ์ ์๋ฏธ ๋งค์นญ์ด ์๋ ์์ ๋จ์์ ๊ฐ์ฌ๋ฅผ ์ํํ๋ PerceptionRubrics ํ๋ ์์ํฌ๋ฅผ ๋์
ํ์ต๋๋ค. ์ด ์์คํ
์ ์ํ ํผ์ด ๋ฆฌ๋ทฐ(Circular Peer-Review)๋ฅผ ํตํด ์์ฑ๋ ๊ณจ๋ ์บก์
์ ๋ฐํ์ผ๋ก ํ์ ์ฌ์ค(Must-Right)๊ณผ ์ธ๋ถ ์ฌํญ(Easy-Wrong)์ผ๋ก ๊ตฌ๋ถ๋ ์ด์ค ์คํธ๋ฆผ ๋ฃจ๋ธ๋ฆญ์ ์ ๊ณตํฉ๋๋ค. ํนํ ํ์ ์ ๋ณด ์ค๋ฅ ์ ๊ฐ๋ ฅํ ํ๋ํฐ๋ฅผ ๋ถ์ฌํ๋ ๊ฒ์ดํธ ์ค์ฝ์ด๋ง(Gated Scoring) ๋ฉ์ปค๋์ฆ์ ์ ์ฉํ์ต๋๋ค. ์คํ ๊ฒฐ๊ณผ, ๋ชจ๋ธ๋ค์ด ๊ฐ๋ณ ์์๋ ๋ง์ถ๋๋ผ๋ ๋ณตํฉ์ ์ธ ์ ์ฝ ์กฐ๊ฑด์์ ์คํจํ๋ ์ ๋ขฐ์ฑ ๊ฒฉ์ฐจ๋ฅผ ๋ฐ๊ฒฌํ์ผ๋ฉฐ, ์คํ์์ค ๋ชจ๋ธ๊ณผ ๋
์ ๋ชจ๋ธ ๊ฐ์ ์ธ์ง ๋ฅ๋ ฅ ์ฐจ์ด๋ ํ์ธํ์ต๋๋ค.
๐ ์ฃผ์ ๋ด์ฉ (Key Points)
- Circular Peer-Review๋ฅผ ํตํ ๊ณ ๋ฐ๋ ์ ๋ณด ๊ธฐ๋ฐ์ ๋ฃจ๋ธ๋ฆญ ์์ฑ ํ์ดํ๋ผ์ธ ๊ตฌ์ถ
- ํ์ ์ฌ์ค ์ค๋ฅ ์ ์ ์๋ฅผ ๊ธ๊ฒฉํ ๊ฐ์ ํ๋ Gated Scoring ๋ฉ์ปค๋์ฆ ๋์
- ๋จ์ ์ ์ ํฉ์ฐ์ด ์๋ ์์ ๋จ์์ ์๊ฒฉํ ๊ฒ์ฆ์ ํตํ ๋ชจ๋ธ์ ์ทจ์ฝ์ฑ ๋ ธ์ถ
๐ก ์ค๋ฌด์ ๊ฐ์น (Relevance)
๋ชจ๋ธ์ ์ฑ๋ฅ์ด ๋ฒค์น๋งํฌ ์ ์๋ง ๋๊ณ ์ค์ ์๊ฐ์ ์ฌ์ค ๊ด๊ณ๋ฅผ ๋์น๋ 'ํ๊ฐ(Hallucination)' ๋ฌธ์ ๋ฅผ ์ ๋ฐํ๊ฒ ๊ฒ์ฆํ ์ ์๋ ํ๊ฐ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํฉ๋๋ค.
โ ์ถ์ฒ ์ก์ (Actionable Items)
- ํ์ฌ ๊ฐ๋ฐ ์ค์ธ VLM ๋ชจ๋ธ์ Must-Right/Easy-Wrong ๋ฐฉ์์ ๋ฃจ๋ธ๋ฆญ ์ ์ฉ ํ ์คํธ
- ๋ณตํฉ์ ์ธ ์๊ฐ ์ ๋ณด๊ฐ ํฌํจ๋ ๋ฐ์ดํฐ์ ์ ๋ํ Gated Scoring ๋ฉ์ปค๋์ฆ ๋์ ๊ฒํ
- ๋ชจ๋ธ์ ๋ ผ๋ฆฌ์ ๊ฒฐํฉ ๋ฅ๋ ฅ์ ์ธก์ ํ๊ธฐ ์ํ conjunctive constraint ํ ์คํธ ์ํ