SWE-bench Benchmark News benchmark update
Introducing CodeClash, our new eval of LMs as goal (not task) oriented developers! [ Link ]
2025년 11월 27일 오후 03:00
원문 보기
SWE-bench CodeClash LLM Evaluation
📝 한국어 요약
SWE-bench 팀에서 단순 작업 수행이 아닌 목표 지향적 개발자 역량을 평가하기 위한 새로운 벤치마크인 CodeClash를 공개했습니다. 이 평가는 언어 모델이 복잡한 개발 목표를 이해하고 해결할 수 있는지 측정하는 데 중점을 둡니다.
🔑 핵심 포인트
- • 새로운 평가 프레임워크인 CodeClash 도입
- • 단순 task 수행이 아닌 goal-oriented 개발자로서의 역량 평가
- • LLM의 복잡한 소프트웨어 개발 문제 해결 능력 측정
Original Context
Introducing CodeClash, our new eval of LMs as goal (not task) oriented developers! [ Link ]