6x P40 running Minimax M2.7_Q3_XL

2026년 7월 2일 오후 06:49 Error upvotes 0 comments

Benchmark NVIDIA P40 LLM Benchmarking AI Home Lab

📝 Summary

6개의 NVIDIA P40 GPU를 활용한 홈랩 환경에서 Minimax M2.7 모델의 성능 벤치마크 결과와 최적화 설정을 공유하는 내용입니다. 다양한 배치 사이즈와 KV 캐시 설정에 따른 처리 속도 및 컨텍스트 길이에 따른 성능 변화를 상세히 분석했습니다.

• P40 6개 구성(총 144GB VRAM) 환경에서 Flash Attention(FA) 사용 시 성능이 크게 향상되며, FA를 껐을 경우 심각한 성능 저하가 발생함을 확인했습니다.
• 배치 사이즈를 2048에서 1024로 줄였을 때 처리 속도가 크게 개선되었으며, 테스트 결과 배치 2048/ubatch 256 설정이 가장 효율적인 선택지로 나타났습니다.
• KV 캐시를 F16으로 유지할 때와 Q8로 양자화했을 때의 성능 차이를 비교하였으며, 컨텍스트 길이가 길어질수록 메모리 및 연산 효율이 중요함을 보여줍니다.