PyoSignal Logo
PyoSignal

Model & Benchmarks

모델 트렌딩, SWE-bench, LiveCodeBench, METR 평가 신호 Source: Model Eval Signals

HF Model Trending model_trending

WeiboAI/VibeThinker-3B

WeiboAI에서 공개한 VibeThinker-3B 모델이 Hugging Face에서 주목받고 있습니다. 약 3B 파라미터 규모의 text-generation 모델로, 최근 높은 다운로드 수를 기록하며 트렌딩 중입니다.

#WeiboAI #VibeThinker-3B
더 보기
HF Model Trending model_trending

zai-org/GLM-5.2

Hugging Face에서 높은 관심을 받고 있는 zai-org/GLM-5.2 모델에 대한 동향입니다. 해당 모델은 text-generation 태그를 가진 대규모 언어 모델로, 최근 높은 다운로드 수를 기록하며 주목받고 있습니다.

#GLM-5.2 #text-generation
더 보기
HF Model Trending model_trending

yuxinlu1/gemma-4-12B-coder-fable5-composer2.5-v1-GGUF

Hugging Face에서 높은 다운로드 수를 기록 중인 yuxinlu1/gemma-4-12B-coder-fable5-composer2.5-v1-GGUF 모델에 대한 동향입니다. 해당 모델은 text-generation 태그를 가진 12B 규모의 GGUF 양자화 모델입니다.

#gemma-4-12B #GGUF
더 보기
SWE-bench benchmark_update

Introducing CodeClash, our new eval of LMs as goal (not task) oriented developers! [ Link ]

SWE-bench 팀에서 단순 작업 수행이 아닌 목표 지향적 개발자 역량을 평가하기 위한 새로운 벤치마크인 CodeClash를 공개했습니다. 이 평가는 언어 모델이 복잡한 개발 목표를 이해하고 해결할 수 있는지 측정하는 데 중점을 둡니다.

#SWE-bench #CodeClash
더 보기
SWE-bench benchmark_update

mini-SWE-agent scores 65% on SWE-bench Verified in 100 lines of python code. [ Link ]

mini-SWE-agent가 SWE-bench Verified 벤치마크에서 65%의 점수를 기록했습니다. 이 모델은 단 100라인의 Python 코드로 구현되었습니다.

#mini-SWE-agent #SWE-bench
더 보기
SWE-bench benchmark_update

SWE-smith is out! Train your own models for software engineering agents. [ Link ]

소프트웨어 엔지니어링 에이전트 학습을 위한 SWE-smith가 출시되었습니다. 사용자가 직접 에이전트용 모델을 학습시킬 수 있는 환경을 제공합니다.

#SWE-smith #Software Engineering
더 보기
LiveCodeBench benchmark_snapshot

LiveCodeBench top model: O4-Mini (High)

LiveCodeBench에서 O4-Mini (High) 모델이 상위 성적을 기록했습니다. 해당 모델은 4개의 문제를 대상으로 테스트를 진행했습니다.

#LiveCodeBench #O4-Mini (High)
더 보기
LiveCodeBench benchmark_snapshot

LiveCodeBench top model: Gemini-2.5-Pro-06-05

LiveCodeBench 벤치마크에서 Gemini-2.5-Pro-06-05 모델이 상위 성적을 기록했습니다. 해당 모델은 4개의 문제를 대상으로 avg_pass@1 25.0%의 성능을 보여주었습니다.

#LiveCodeBench #Gemini-2.5-Pro-06-05
더 보기
LiveCodeBench benchmark_snapshot

LiveCodeBench top model: Gemini-2.5-Flash-04-17

LiveCodeBench의 최신 스냅샷 결과, Gemini-2.5-Flash-04-17 모델이 상위 성능을 기록했습니다. 해당 모델은 4개의 문제를 대상으로 테스트를 진행했습니다.

#LiveCodeBench #Gemini-2.5-Flash-04-17
더 보기