Model & Benchmarks
모델 트렌딩, SWE-bench, LiveCodeBench, METR 평가 신호 Source: Model Eval Signals
WeiboAI/VibeThinker-3B
WeiboAI에서 공개한 VibeThinker-3B 모델이 Hugging Face에서 주목받고 있습니다. 약 3B 파라미터 규모의 text-generation 모델로, 최근 높은 다운로드 수를 기록하며 트렌딩 중입니다.
zai-org/GLM-5.2
Hugging Face에서 높은 관심을 받고 있는 zai-org/GLM-5.2 모델에 대한 동향입니다. 해당 모델은 text-generation 태그를 가진 대규모 언어 모델로, 최근 높은 다운로드 수를 기록하며 주목받고 있습니다.
yuxinlu1/gemma-4-12B-coder-fable5-composer2.5-v1-GGUF
Hugging Face에서 높은 다운로드 수를 기록 중인 yuxinlu1/gemma-4-12B-coder-fable5-composer2.5-v1-GGUF 모델에 대한 동향입니다. 해당 모델은 text-generation 태그를 가진 12B 규모의 GGUF 양자화 모델입니다.
Introducing CodeClash, our new eval of LMs as goal (not task) oriented developers! [ Link ]
SWE-bench 팀에서 단순 작업 수행이 아닌 목표 지향적 개발자 역량을 평가하기 위한 새로운 벤치마크인 CodeClash를 공개했습니다. 이 평가는 언어 모델이 복잡한 개발 목표를 이해하고 해결할 수 있는지 측정하는 데 중점을 둡니다.
mini-SWE-agent scores 65% on SWE-bench Verified in 100 lines of python code. [ Link ]
mini-SWE-agent가 SWE-bench Verified 벤치마크에서 65%의 점수를 기록했습니다. 이 모델은 단 100라인의 Python 코드로 구현되었습니다.
SWE-smith is out! Train your own models for software engineering agents. [ Link ]
소프트웨어 엔지니어링 에이전트 학습을 위한 SWE-smith가 출시되었습니다. 사용자가 직접 에이전트용 모델을 학습시킬 수 있는 환경을 제공합니다.
LiveCodeBench top model: O4-Mini (High)
LiveCodeBench에서 O4-Mini (High) 모델이 상위 성적을 기록했습니다. 해당 모델은 4개의 문제를 대상으로 테스트를 진행했습니다.
LiveCodeBench top model: Gemini-2.5-Pro-06-05
LiveCodeBench 벤치마크에서 Gemini-2.5-Pro-06-05 모델이 상위 성적을 기록했습니다. 해당 모델은 4개의 문제를 대상으로 avg_pass@1 25.0%의 성능을 보여주었습니다.
LiveCodeBench top model: Gemini-2.5-Flash-04-17
LiveCodeBench의 최신 스냅샷 결과, Gemini-2.5-Flash-04-17 모델이 상위 성능을 기록했습니다. 해당 모델은 4개의 문제를 대상으로 테스트를 진행했습니다.