Model & Benchmarks

모델 트렌딩, SWE-bench, LiveCodeBench, METR 평가 신호 Source: Model Eval Signals

Model eval feed readout

Today's model briefing

Hugging Face의 신규 모델 트렌드와 함께, 소프트웨어 엔지니어링 에이전트 역량 및 코딩 능력을 측정하는 새로운 벤치마크와 모델 성과가 주요 흐름으로 나타났습니다.

LLMAI AgentsSoftware EngineeringCoding BenchmarkHugging Face

•Hugging Face에서 VibeThinker-3B, GLM-5.2, Gemma-4 기반 GGUF 모델 등 다양한 규모와 목적의 텍스트 생성 모델이 높은 관심을 받으며 트렌딩 중입니다.
•SWE-bench 팀에서 목표 지향적 개발 역량 평가를 위한 'CodeClash'를 공개하고, 에이전트 학습 환경인 'SWE-smith'를 출시하는 등 AI 에이전트 평가 및 학습 도구가 고도화되고 있습니다.
•LiveCodeBench 결과, O4-Mini 및 Gemini 시리즈 모델들이 상위권 성적을 기록하며 코딩 성능 경쟁이 지속되고 있습니다.

WeiboAI/VibeThinker-3B

WeiboAI에서 공개한 VibeThinker-3B 모델이 Hugging Face에서 주목받고 있습니다. 약 3B 파라미터 규모의 text-generation 모델로, 최근 높은 다운로드 수를 기록하며 트렌딩 중입니다.

#WeiboAI #VibeThinker-3B

HF Model Trending model_trending

zai-org/GLM-5.2

Hugging Face에서 높은 관심을 받고 있는 zai-org/GLM-5.2 모델에 대한 동향입니다. 해당 모델은 text-generation 태그를 가진 대규모 언어 모델로, 최근 높은 다운로드 수를 기록하며 주목받고 있습니다.

#GLM-5.2 #text-generation

HF Model Trending model_trending

yuxinlu1/gemma-4-12B-coder-fable5-composer2.5-v1-GGUF

Hugging Face에서 높은 다운로드 수를 기록 중인 yuxinlu1/gemma-4-12B-coder-fable5-composer2.5-v1-GGUF 모델에 대한 동향입니다. 해당 모델은 text-generation 태그를 가진 12B 규모의 GGUF 양자화 모델입니다.

#gemma-4-12B #GGUF

SWE-bench benchmark_update

Introducing CodeClash, our new eval of LMs as goal (not task) oriented developers! [ Link ]

SWE-bench 팀에서 단순 작업 수행이 아닌 목표 지향적 개발자 역량을 평가하기 위한 새로운 벤치마크인 CodeClash를 공개했습니다. 이 평가는 언어 모델이 복잡한 개발 목표를 이해하고 해결할 수 있는지 측정하는 데 중점을 둡니다.

#SWE-bench #CodeClash

SWE-bench benchmark_update

mini-SWE-agent scores 65% on SWE-bench Verified in 100 lines of python code. [ Link ]

mini-SWE-agent가 SWE-bench Verified 벤치마크에서 65%의 점수를 기록했습니다. 이 모델은 단 100라인의 Python 코드로 구현되었습니다.

#mini-SWE-agent #SWE-bench

SWE-bench benchmark_update

SWE-smith is out! Train your own models for software engineering agents. [ Link ]

소프트웨어 엔지니어링 에이전트 학습을 위한 SWE-smith가 출시되었습니다. 사용자가 직접 에이전트용 모델을 학습시킬 수 있는 환경을 제공합니다.

#SWE-smith #Software Engineering

LiveCodeBench benchmark_snapshot

LiveCodeBench top model: O4-Mini (High)

LiveCodeBench에서 O4-Mini (High) 모델이 상위 성적을 기록했습니다. 해당 모델은 4개의 문제를 대상으로 테스트를 진행했습니다.

#LiveCodeBench #O4-Mini (High)

LiveCodeBench benchmark_snapshot

LiveCodeBench top model: Gemini-2.5-Pro-06-05

LiveCodeBench 벤치마크에서 Gemini-2.5-Pro-06-05 모델이 상위 성적을 기록했습니다. 해당 모델은 4개의 문제를 대상으로 avg_pass@1 25.0%의 성능을 보여주었습니다.

#LiveCodeBench #Gemini-2.5-Pro-06-05

LiveCodeBench benchmark_snapshot

LiveCodeBench top model: Gemini-2.5-Flash-04-17

LiveCodeBench의 최신 스냅샷 결과, Gemini-2.5-Flash-04-17 모델이 상위 성능을 기록했습니다. 해당 모델은 4개의 문제를 대상으로 테스트를 진행했습니다.

#LiveCodeBench #Gemini-2.5-Flash-04-17