NatureBench: Can Coding Agents Match the Published SOTA of Nature-Family Papers?
Paper ID: 2606.24530 โข 47 Upvotes
AI Agent Benchmark Scientific Computing Automation Agent RAG Evaluation Distillation
๐ ํต์ฌ ์์ฝ
์ค์ ๊ณผํ ๋
ผ๋ฌธ์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ AI ์์ด์ ํธ์ ์ฑ๋ฅ์ ๊ฒ์ฆํ๊ธฐ ์ํ ๋ฒค์น๋งํฌ ๋ฐ ์๋ํ ํ๊ฒฝ ๊ตฌ์ถ
๐ ์์ธ ๋ด์ฉ
๊ธฐ์กด์ AI ์์ด์ ํธ ๋ฒค์น๋งํฌ๋ ์ฐ๊ตฌ ์ฌํ์ฑ ๋ฐ ํ๊ฒฝ ํํธํ ๋ฌธ์ ๋ก ์ธํด ์ค์ ๊ณผํ์ ๋ฐ๊ฒฌ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ๋ฐ ํ๊ณ๊ฐ ์์์ต๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด Nature-family ๋
ผ๋ฌธ์์ ์ถ์ถํ 90๊ฐ์ ํ์คํฌ๋ก ๊ตฌ์ฑ๋ NatureBench์ ์๋ํ๋ ์ปจํ
์ด๋ ํ๊ฒฝ ๊ตฌ์ถ ํ์ดํ๋ผ์ธ์ธ NatureGym์ ์ ์ํฉ๋๋ค. ์น ๊ฒ์์ ์ ํํ ์๊ฒฉํ ํ๊ฒฝ์์ 10์ข
์ ์ต์ ์์ด์ ํธ๋ฅผ ํ๊ฐํ ๊ฒฐ๊ณผ, ์ต์์ ๋ชจ๋ธ์กฐ์ฐจ SOTA ์ฑ๋ฅ์ ์ฌํํ๋ ๋ฐ ์ด๋ ค์์ ๊ฒช์์ต๋๋ค. ๋ถ์ ๊ฒฐ๊ณผ, ์์ด์ ํธ๋ค์ ๊ณผํ์ ํ์ ๋ณด๋ค๋ ๊ธฐ์กด ๋ฌธ์ ๋ฅผ ์ต์ํ ์์ธก ๋ฌธ์ ๋ก ๋ณํํ๋ ๋ฐฉ์์ผ๋ก ์ฑ๊ณตํ๋ฉฐ, ์คํจ์ ์ฃผ๋ ์์ธ์ ์๋ชป๋ ๋ฐฉ๋ฒ๋ก ์ ํ๊ณผ ์ปดํจํ
์์ ๋ถ์กฑ์ผ๋ก ๋ํ๋ฌ์ต๋๋ค.
๐ ์ฃผ์ ๋ด์ฉ (Key Points)
- Nature-family ๋ ผ๋ฌธ ๊ธฐ๋ฐ์ ๊ณ ๋๋ ๊ณผํ ํ์คํฌ ๋ฒค์น๋งํฌ(NatureBench) ๊ตฌ์ถ
- ๋ ผ๋ฌธ์ผ๋ก๋ถํฐ ํ์คํ๋ ์ปจํ ์ด๋ ํ๊ฒฝ์ ์๋ ์์ฑํ๋ ํ์ดํ๋ผ์ธ(NatureGym) ๊ฐ๋ฐ
- ์์ด์ ํธ์ ์ฑ๊ณต ๋ฐฉ์์ด '๊ณผํ์ ๋ฐ๊ฒฌ'์ด ์๋ '๋ฐฉ๋ฒ๋ก ์ ๋ฒ์ญ'์ ์น์ค๋์ด ์์์ ๊ท๋ช
๐ก ์ค๋ฌด์ ๊ฐ์น (Relevance)
AI ์์ด์ ํธ๊ฐ ๋จ์ ์ฝ๋ฉ์ ๋์ด ๋ณต์กํ ๋๋ฉ์ธ ์ง์์ด ํ์ํ ๊ณผํ์ ๋ฌธ์ ํด๊ฒฐ์ ์ผ๋ง๋ ๊ทผ์ ํ๋์ง ํ๋จํ๋ ๊ธฐ์ค์ ์ ๊ณตํฉ๋๋ค.
โ ์ถ์ฒ ์ก์ (Actionable Items)
- NatureGym ํ์ดํ๋ผ์ธ์ ํ์ฉํ์ฌ ํน์ ๋๋ฉ์ธ ๋ ผ๋ฌธ์ ์ฌํ ํ๊ฒฝ ๊ตฌ์ถ ์คํ
- ์์ด์ ํธ์ ๋ฐฉ๋ฒ๋ก ์ ํ ์ค๋ฅ๋ฅผ ์ค์ด๊ธฐ ์ํ ํ๋กฌํํธ ์์ง๋์ด๋ง ์ ๋ต ํ ์คํธ
- ์ปดํจํ ์์(Compute Budget) ๋ณํ์ ๋ฐ๋ฅธ ์์ด์ ํธ ์ฑ๊ณต๋ฅ ์๊ด๊ด๊ณ ๋ถ์