🤖 Reddit r/LocalLLaMA

Luce DFlash: Qwen3.6-27B at up to 2x throughput on a single RTX 3090

309 upvotes 90 comments Read on Reddit

Release LLM Benchmark Qwen3.6 Python

📝 AI Summary

Luce DFlash는 Qwen3.6-27B 모델을 단일 RTX 3090에서 최대 2배의 처리량으로 실행할 수 있는 GGUF 포트이며, Speculative Decoding을 사용합니다. 별도의 Python 런타임이나 llama.cpp 설치 없이 C++/CUDA 스택으로 작동하며, 커뮤니티에서는 로컬 AI 추론의 혁신에 대한 긍정적인 반응과 함께 Docker 지원에 대한 관심도 보이고 있습니다.

🔑 Key Discussion Points

• Qwen3.6-27B 모델을 위한 DFlash Speculative Decoding GGUF 포트 제공. 단일 RTX 3090에서 최대 2배의 처리량 향상 가능
• C++/CUDA 스택 기반으로 작동하며, Python 런타임이나 llama.cpp 설치가 필요 없음. libggml*.a 라이브러리 링크 사용
• KV 캐시를 TQ3_0으로 압축하여 메모리 사용량을 줄이고, Sliding-window Flash Attention을 적용하여 긴 컨텍스트에서도 빠른 디코딩 속도 유지