PlanBench-XL: Evaluating Long-Horizon Planning of LLM Tool-Use Agents in Large-Scale Tool Ecosystems

Paper ID: 2606.22388 • 78 Upvotes

LLM Agent Planning Tool-use Benchmark Agent RAG Evaluation

PlanBench-XL: Evaluating Long-Horizon Planning of LLM Tool-Use Agents in Large-Scale Tool Ecosystems

📝 핵심 요약

대규모 도구 생태계에서 LLM 에이전트의 장기 계획 수립 및 예외 대응 능력을 평가하기 위한 벤치마크 PlanBench-XL 제안

📖 상세 내용

LLM 에이전트가 복잡한 도구 환경에서 작업을 수행할 때, 도구 검색과 동적 환경 적응이 필수적이지만 기존 벤치마크는 이를 충분히 평가하지 못합니다. 이를 해결하기 위해 1,665개의 도구와 327개의 리테일 작업을 포함한 PlanBench-XL 벤치마크를 도입합니다. 이 벤치마크는 도구 검색, 중간 증거 확보, 그리고 의도적인 장애(blocking) 상황에서의 적응력을 테스트합니다. 실험 결과, 최상위 모델들도 장애 상황에서 성능이 급격히 저하되는 등 대규모 도구 환경에서의 계획 수립에 취약함을 보였습니다. 결과적으로 본 연구는 에이전트의 강건한 계획 수립 능력을 진단할 수 있는 새로운 기준을 제시합니다.

🔑 주요 내용 (Key Points)

1,665개의 방대한 도구와 327개의 복잡한 작업을 포함한 대규모 벤치마크 PlanBench-XL 개발
도구의 누락, 실패, 방해 요소를 포함한 'Blocking Mechanism'을 통한 실무적 불확실성 시뮬레이션
장기 계획(Long-horizon) 수립 시 도구 검색 및 중간 단계 피드백을 통한 경로 수정 능력 평가

💡 실무적 가치 (Relevance)

실제 서비스 환경에서 발생할 수 있는 API 실패나 예기치 못한 데이터 부재 상황에서 에이전트가 얼마나 안정적으로 동작할지 검증하는 기준을 제공합니다.

✅ 추천 액션 (Actionable Items)

에이전트 워크플로우에 의도적인 API 오류를 주입하여 복구 로직의 강건성 테스트
도구 개수가 늘어날 때 에이전트의 검색 정확도 및 계획 수립 성공률 변화 측정
에러 메시지가 불분명한 상황을 가정하여 에이전트의 자가 수정(Self-correction) 능력 평가

View on Hugging Face View PDF (arXiv)