PlanBench-XL: Evaluating Long-Horizon Planning of LLM Tool-Use Agents in Large-Scale Tool Ecosystems
Paper ID: 2606.22388 โข 78 Upvotes
LLM Agent Planning Tool-use Benchmark Agent RAG Evaluation
๐ ํต์ฌ ์์ฝ
๋๊ท๋ชจ ๋๊ตฌ ์ํ๊ณ์์ LLM ์์ด์ ํธ์ ์ฅ๊ธฐ ๊ณํ ์๋ฆฝ ๋ฐ ์์ธ ๋์ ๋ฅ๋ ฅ์ ํ๊ฐํ๊ธฐ ์ํ ๋ฒค์น๋งํฌ PlanBench-XL ์ ์
๐ ์์ธ ๋ด์ฉ
LLM ์์ด์ ํธ๊ฐ ๋ณต์กํ ๋๊ตฌ ํ๊ฒฝ์์ ์์
์ ์ํํ ๋, ๋๊ตฌ ๊ฒ์๊ณผ ๋์ ํ๊ฒฝ ์ ์์ด ํ์์ ์ด์ง๋ง ๊ธฐ์กด ๋ฒค์น๋งํฌ๋ ์ด๋ฅผ ์ถฉ๋ถํ ํ๊ฐํ์ง ๋ชปํฉ๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด 1,665๊ฐ์ ๋๊ตฌ์ 327๊ฐ์ ๋ฆฌํ
์ผ ์์
์ ํฌํจํ PlanBench-XL ๋ฒค์น๋งํฌ๋ฅผ ๋์
ํฉ๋๋ค. ์ด ๋ฒค์น๋งํฌ๋ ๋๊ตฌ ๊ฒ์, ์ค๊ฐ ์ฆ๊ฑฐ ํ๋ณด, ๊ทธ๋ฆฌ๊ณ ์๋์ ์ธ ์ฅ์ (blocking) ์ํฉ์์์ ์ ์๋ ฅ์ ํ
์คํธํฉ๋๋ค. ์คํ ๊ฒฐ๊ณผ, ์ต์์ ๋ชจ๋ธ๋ค๋ ์ฅ์ ์ํฉ์์ ์ฑ๋ฅ์ด ๊ธ๊ฒฉํ ์ ํ๋๋ ๋ฑ ๋๊ท๋ชจ ๋๊ตฌ ํ๊ฒฝ์์์ ๊ณํ ์๋ฆฝ์ ์ทจ์ฝํจ์ ๋ณด์์ต๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก ๋ณธ ์ฐ๊ตฌ๋ ์์ด์ ํธ์ ๊ฐ๊ฑดํ ๊ณํ ์๋ฆฝ ๋ฅ๋ ฅ์ ์ง๋จํ ์ ์๋ ์๋ก์ด ๊ธฐ์ค์ ์ ์ํฉ๋๋ค.
๐ ์ฃผ์ ๋ด์ฉ (Key Points)
- 1,665๊ฐ์ ๋ฐฉ๋ํ ๋๊ตฌ์ 327๊ฐ์ ๋ณต์กํ ์์ ์ ํฌํจํ ๋๊ท๋ชจ ๋ฒค์น๋งํฌ PlanBench-XL ๊ฐ๋ฐ
- ๋๊ตฌ์ ๋๋ฝ, ์คํจ, ๋ฐฉํด ์์๋ฅผ ํฌํจํ 'Blocking Mechanism'์ ํตํ ์ค๋ฌด์ ๋ถํ์ค์ฑ ์๋ฎฌ๋ ์ด์
- ์ฅ๊ธฐ ๊ณํ(Long-horizon) ์๋ฆฝ ์ ๋๊ตฌ ๊ฒ์ ๋ฐ ์ค๊ฐ ๋จ๊ณ ํผ๋๋ฐฑ์ ํตํ ๊ฒฝ๋ก ์์ ๋ฅ๋ ฅ ํ๊ฐ
๐ก ์ค๋ฌด์ ๊ฐ์น (Relevance)
์ค์ ์๋น์ค ํ๊ฒฝ์์ ๋ฐ์ํ ์ ์๋ API ์คํจ๋ ์๊ธฐ์น ๋ชปํ ๋ฐ์ดํฐ ๋ถ์ฌ ์ํฉ์์ ์์ด์ ํธ๊ฐ ์ผ๋ง๋ ์์ ์ ์ผ๋ก ๋์ํ ์ง ๊ฒ์ฆํ๋ ๊ธฐ์ค์ ์ ๊ณตํฉ๋๋ค.
โ ์ถ์ฒ ์ก์ (Actionable Items)
- ์์ด์ ํธ ์ํฌํ๋ก์ฐ์ ์๋์ ์ธ API ์ค๋ฅ๋ฅผ ์ฃผ์ ํ์ฌ ๋ณต๊ตฌ ๋ก์ง์ ๊ฐ๊ฑด์ฑ ํ ์คํธ
- ๋๊ตฌ ๊ฐ์๊ฐ ๋์ด๋ ๋ ์์ด์ ํธ์ ๊ฒ์ ์ ํ๋ ๋ฐ ๊ณํ ์๋ฆฝ ์ฑ๊ณต๋ฅ ๋ณํ ์ธก์
- ์๋ฌ ๋ฉ์์ง๊ฐ ๋ถ๋ถ๋ช ํ ์ํฉ์ ๊ฐ์ ํ์ฌ ์์ด์ ํธ์ ์๊ฐ ์์ (Self-correction) ๋ฅ๋ ฅ ํ๊ฐ