2× Radeon AI PRO R9700 (RDNA4/gfx1201) on vLLM 0.22.1 — how we fixed the long-context decode cliff (and what we learned chasing FP8)

2026년 6월 19일 오후 06:14 13 upvotes 22 comments

Read Original

AMD Radeon Python vLLM Agent LLM

📝 Summary

RDNA4 아키텍처 기반의 Radeon AI PRO R9700 2개를 활용하여 vLLM 환경에서 긴 컨텍스트 처리 시 발생하는 성능 저하 문제를 해결한 기술 공유 글입니다. AITER Unified Attention 기술을 적용하여 컨텍스트 길이가 길어짐에 따라 급격히 떨어지던 디코딩 속도를 성공적으로 개선했습니다.

🔑 Key Points

• R9700(gfx1201) 2개와 vLLM 0.22.1을 사용하여 8K에서 79K 컨텍스트로 확장 시 발생하는 7배 이상의 성능 급락 문제를 해결함
• AITER Unified Attention 백엔드와 특정 패치를 통해 긴 컨텍스트에서도 안정적인 디코딩 성능을 확보하는 데 성공함
• 사용자들은 패치 방법과 소스 코드 공유를 요청하며, RDNA3 등 다른 아키텍처로의 확장 가능성에 높은 관심을 보임