🤖 Reddit r/LocalLLaMA

PFlash: 10x prefill speedup over llama.cpp at 128K on a RTX 3090

214 upvotes 50 comments Read on Reddit

Release AI LLM inference OpenSource Speculative Prefill

📝 AI Summary

Luce-Org에서 개발한 PFlash는 양자화된 27B 모델에서 긴 컨텍스트 디코딩 시 llama.cpp 대비 10배 빠른 프리필 속도를 제공한다. 이 기술은 작은 드래프터 모델을 사용하여 토큰 중요도를 평가하고, 중요한 부분만 프리필하여 RTX 3090에서 128K 컨텍스트에서 상당한 속도 향상을 보인다. 커뮤니티에서는 이 기술의 잠재력에 관심을 보이지만, 재현 가능성과 llama.cpp 통합에 대한 요구도 있다.

🔑 Key Discussion Points

• PFlash는 Speculative Prefill 및 Cross-Family Speculative Prefill 논문을 기반으로 C++/CUDA로 구현되었으며, 24GB RTX 3090에서 작동한다.
• Qwen3.6-27B Q4_K_M 모델에서 128K 토큰에 대해 llama.cpp 대비 약 10배 빠른 프리필 속도를 달성했으며, NIAH 검색도 유지된다.
• 커뮤니티는 10배 속도 향상에 대한 진위 여부에 의문을 제기하며, 재현 가능성 검증 및 llama.cpp에 PR 요청이 있다.