PyoSignal Logo
PyoSignal
Back to Model & Benchmarks
SWE-bench Benchmark News benchmark update

Introducing CodeClash, our new eval of LMs as goal (not task) oriented developers! [ Link ]

2025년 11월 27일 오후 03:00 원문 보기
SWE-bench CodeClash LLM Evaluation

📝 한국어 요약

SWE-bench 팀에서 단순 작업 수행이 아닌 목표 지향적 개발자 역량을 평가하기 위한 새로운 벤치마크인 CodeClash를 공개했습니다. 이 평가는 언어 모델이 복잡한 개발 목표를 이해하고 해결할 수 있는지 측정하는 데 중점을 둡니다.

🔑 핵심 포인트

  • 새로운 평가 프레임워크인 CodeClash 도입
  • 단순 task 수행이 아닌 goal-oriented 개발자로서의 역량 평가
  • LLM의 복잡한 소프트웨어 개발 문제 해결 능력 측정

Original Context

Introducing CodeClash, our new eval of LMs as goal (not task) oriented developers! [ Link ]