Reddit r/LocalLLaMA LocalLLaMA
Maximizing performance of 2x3090 + NVLink
2026년 6월 19일 오후 06:26 Error upvotes 0 comments
Read Original Multi_GPU LLM_Optimization AI RTX_3090
📝 Summary
2x RTX 3090와 NVLink를 활용한 워크스테이션 환경에서 Qwen 2.5 27B 모델의 추론 성능을 최적화하려는 사용자의 질문입니다. 현재 설정에서 발생하는 토큰 생성 속도(TPS)가 적절한 수준인지, 혹은 추가적인 성능 향상 방법이 있는지에 대해 커뮤니티의 조언을 구하고 있습니다.
🔑 Key Points
- • 사용자는 2x RTX 3090(NVLink 포함), Ryzen 7950x3d, 64GB DDR5 환경에서 디스플레이를 eGPU로 분리하여 VRAM을 최대한 확보한 상태입니다.
- • Qwen 2.5 27B Q8_0 모델을 사용 중이며, 평균 40-45 TPS의 속도를 기록하고 있어 현재 성능이 하드웨어 사양 대비 적절한지 확인하고자 합니다.
- • NVLink를 포함한 현재 구성에서 성능을 더욱 끌어올릴 수 있는 최적화 기법이나 설정 방법에 대해 질문하고 있습니다.