DV-World: Benchmarking Data Visualization Agents in Real-World Scenarios
Paper ID: 2604.25914 โข 36 Upvotes
Benchmark Data Visualization Agent MLLM Evaluation Safety
๐ ํต์ฌ ์์ฝ
DV-World๋ ์ค์ ๋ฐ์ดํฐ ์๊ฐํ ํ๊ฒฝ์ ๋ณต์ก์ฑ์ ๋ฐ์ํ ์๋ก์ด ๋ฒค์น๋งํฌ๋ก, ๊ธฐ์กด ๋ชจ๋ธ์ ๋ถ์กฑํ ์ฑ๋ฅ์ ๋๋ฌ๋ด ๊ธฐ์
์ํฌํ๋ก์ฐ์ ํ์ํ ๋ค์ฌ๋ค๋ฅํ ์ ๋ฌธ์ฑ ๊ฐ๋ฐ์ ์ด์งํฉ๋๋ค.
๐ ์์ธ ๋ด์ฉ
๊ธฐ์กด ๋ฐ์ดํฐ ์๊ฐํ ๋ฒค์น๋งํฌ๋ ์ ํ์ ์ธ ํ๊ฒฝ, ๋จ์ผ ์ธ์ด, ์๋ฒฝํ ์๋ ๊ฐ์ ๋ฑ์ ๋ฌธ์ ์ ์ด ์์์ต๋๋ค. ์ด๋ฌํ ๊ฒฉ์ฐจ๋ฅผ ํด์ํ๊ธฐ ์ํด ์ค์ ์
๋ฌด ํ๊ฒฝ์ ๋ฐ์ํ 260๊ฐ์ ํ์คํฌ๋ก ๊ตฌ์ฑ๋ DV-World ๋ฒค์น๋งํฌ๋ฅผ ์๊ฐํฉ๋๋ค. DV-World๋ ์คํ๋ ๋์ํธ ์กฐ์, ์๊ฐ์ artifact ์ฌ๊ตฌ์ฑ, ์ฌ์ฉ์ ์๋ ์ ๋ ฌ์ ์ธ ๊ฐ์ง ๋๋ฉ์ธ์ ํฌํจํฉ๋๋ค. Table-value Alignment์ MLLM-as-a-Judge๋ฅผ ํตํฉํ ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ํตํด ๋ชจ๋ธ์ ํ๊ฐํ ๊ฒฐ๊ณผ, ์ต์ฒจ๋จ ๋ชจ๋ธ์ ์ฑ๋ฅ์ด 50% ๋ฏธ๋ง์ผ๋ก ๋ํ๋ฌ์ต๋๋ค. DV-World๋ ์ค์ ๋ฐ์ดํฐ ์๊ฐํ์ ๋ณต์กํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ ๊ธฐ์
์ํฌํ๋ก์ฐ์ ํ์ํ ๋ค์ฌ๋ค๋ฅํ ์ ๋ฌธ์ฑ ๊ฐ๋ฐ์ ์ํ ํ์ค์ ์ธ ํ
์คํธ๋ฒ ๋๋ฅผ ์ ๊ณตํฉ๋๋ค.
๐ ์ฃผ์ ๋ด์ฉ (Key Points)
- ์ค์ ๋ฐ์ดํฐ ์๊ฐํ ํ๊ฒฝ์ ๋ฐ์ํ ์๋ก์ด ๋ฒค์น๋งํฌ DV-World ์ ์
- ์คํ๋ ๋์ํธ ์กฐ์, artifact ์ฌ๊ตฌ์ฑ, ์ฌ์ฉ์ ์๋ ์ ๋ ฌ์ ์ธ ๊ฐ์ง ๋๋ฉ์ธ์ผ๋ก ๊ตฌ์ฑ
- Table-value Alignment์ MLLM-as-a-Judge๋ฅผ ํตํฉํ ํ์ด๋ธ๋ฆฌ๋ ํ๊ฐ ํ๋ ์์ํฌ
๐ก ์ค๋ฌด์ ๊ฐ์น (Relevance)
๋ฐ์ดํฐ ์๊ฐํ ์์ด์ ํธ ๊ฐ๋ฐ ์ ์ค์ ์
๋ฌด ํ๊ฒฝ์์์ ์ฑ๋ฅ์ ํ๊ฐํ๊ณ ๊ฐ์ ํ๋ ๋ฐ ์ ์ฉํ ๋ฒค์น๋งํฌ๋ฅผ ์ ๊ณตํ๋ฉฐ, ํนํ ์คํ๋ ๋์ํธ, ๋ค์ํ ํ๋ก๊ทธ๋๋ฐ ํจ๋ฌ๋ค์, ์ฌ์ฉ์ ์๋ ํด์ ๋ฑ ์ค์ ๊ฐ๋ฐ์์ ๋ง์ฃผ์น๋ ๋ณต์ก์ฑ์ ๊ณ ๋ คํ ์ ์์ต๋๋ค.
โ ์ถ์ฒ ์ก์ (Actionable Items)
- DV-World ๋ฒค์น๋งํฌ๋ฅผ ์ฌ์ฉํ์ฌ ๊ธฐ์กด ๋ฐ์ดํฐ ์๊ฐํ ๋ชจ๋ธ์ ์ฑ๋ฅ ํ๊ฐ
- DV-World์ ์ธ ๊ฐ์ง ๋๋ฉ์ธ(DV-Sheet, DV-Evolution, DV-Interact)๋ณ ์ฑ๋ฅ ๋ถ์ ๋ฐ ๊ฐ์
- Table-value Alignment์ MLLM-as-a-Judge๋ฅผ ํ์ฉํ ํ๊ฐ ๋ฐฉ์ ์ ์ฉ