๐ค Reddit
r/LocalLLaMA
Luce DFlash: Qwen3.6-27B at up to 2x throughput on a single RTX 3090
Release LLM Benchmark Qwen3.6 Python
๐ AI Summary
Luce DFlash๋ Qwen3.6-27B ๋ชจ๋ธ์ ๋จ์ผ RTX 3090์์ ์ต๋ 2๋ฐฐ์ ์ฒ๋ฆฌ๋์ผ๋ก ์คํํ ์ ์๋ GGUF ํฌํธ์ด๋ฉฐ, Speculative Decoding์ ์ฌ์ฉํฉ๋๋ค. ๋ณ๋์ Python ๋ฐํ์์ด๋ llama.cpp ์ค์น ์์ด C++/CUDA ์คํ์ผ๋ก ์๋ํ๋ฉฐ, ์ปค๋ฎค๋ํฐ์์๋ ๋ก์ปฌ AI ์ถ๋ก ์ ํ์ ์ ๋ํ ๊ธ์ ์ ์ธ ๋ฐ์๊ณผ ํจ๊ป Docker ์ง์์ ๋ํ ๊ด์ฌ๋ ๋ณด์ด๊ณ ์์ต๋๋ค.
๐ Key Discussion Points
- โข Qwen3.6-27B ๋ชจ๋ธ์ ์ํ DFlash Speculative Decoding GGUF ํฌํธ ์ ๊ณต. ๋จ์ผ RTX 3090์์ ์ต๋ 2๋ฐฐ์ ์ฒ๋ฆฌ๋ ํฅ์ ๊ฐ๋ฅ
- โข C++/CUDA ์คํ ๊ธฐ๋ฐ์ผ๋ก ์๋ํ๋ฉฐ, Python ๋ฐํ์์ด๋ llama.cpp ์ค์น๊ฐ ํ์ ์์. libggml*.a ๋ผ์ด๋ธ๋ฌ๋ฆฌ ๋งํฌ ์ฌ์ฉ
- โข KV ์บ์๋ฅผ TQ3_0์ผ๋ก ์์ถํ์ฌ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ์ค์ด๊ณ , Sliding-window Flash Attention์ ์ ์ฉํ์ฌ ๊ธด ์ปจํ ์คํธ์์๋ ๋น ๋ฅธ ๋์ฝ๋ฉ ์๋ ์ ์ง