ELDR: Expert-Locality-Aware Decode Routing for PD-Disaggregated MoE Serving
Paper ID: 2607.00466 β’ 19 Upvotes
LLM Serving MoE Load Balancing Distributed Systems Evaluation Inference
π ν΅μ¬ μμ½
MoE λͺ¨λΈμ μ λ¬Έκ°(Expert) νμ±ν ν¨ν΄μ κ³ λ €ν λΌμ°ν
μ ν΅ν΄ PD λΆλ¦¬ νκ²½μμ λμ½λ© μ§μ° μκ°μ λ¨μΆνλ κΈ°μ
π μμΈ λ΄μ©
LLMμ Prefill-Decode(PD) λΆλ¦¬ μλΉ νκ²½μμ κΈ°μ‘΄μ λΆν λΆμ° λ°©μμ MoE λͺ¨λΈμ νΉμ±μ μΆ©λΆν λ°μνμ§ λͺ»ν©λλ€. λ¨μν μ컀μ λΆνλ₯Ό λ§μΆλ κ²λ§μΌλ‘λ κ° μμ²μ΄ νμ±ννλ μ λ¬Έκ°(Expert) κ°μ€μΉ λ‘λ©μ λ°λ₯Έ μ§μ° μκ° μ°¨μ΄λ₯Ό ν΄κ²°ν μ μκΈ° λλ¬Έμ
λλ€. μ΄λ₯Ό ν΄κ²°νκΈ° μν΄ ELDRλ ν리ν λ¨κ³μ μ λ¬Έκ° νμ±ν ν¨ν΄μ κΈ°λ°μΌλ‘ 'μ λ¬Έκ° μκ·Έλμ²'λ₯Ό μμ±ν©λλ€. μ€νλΌμΈμμλ K-meansλ‘ μκ·Έλμ² κ³΅κ°μ λΆν νκ³ , μ¨λΌμΈμμλ μκ·Έλμ²κ° μ μ¬νλ©΄μ λΆνκ° μ μ μμ»€λ‘ μμ²μ 보λ΄λ Locality-band λΌμ°ν
μ μνν©λλ€. λν KV μΊμμ μ°λλ μκ·Έλμ² μΊμλ₯Ό ν΅ν΄ ν리ν½μ€ μΊμ± νκ²½μμλ μ νλλ₯Ό μ μ§ν©λλ€. μ€ν κ²°κ³Ό, vLLMμ ꡬνλ ELDRλ κΈ°μ‘΄ λΆν λΆμ° λ°©μ λλΉ TPOT(Time Per Output Token)λ₯Ό μ΅λ 13.9%κΉμ§ κ°μ νμμ΅λλ€.
π μ£Όμ λ΄μ© (Key Points)
- ν리ν λ¨κ³μ μ λ¬Έκ° νμ±ν ν¨ν΄μ νμ©ν 'μ λ¬Έκ° μκ·Έλμ²' μΆμΆ
- μκ·Έλμ² μ μ¬λμ μ컀 λΆνλ₯Ό λμμ κ³ λ €νλ Locality-band λΌμ°ν μκ³ λ¦¬μ¦
- KV μΊμ λΈλ‘ λ¨μμ μκ·Έλμ² μΊμ±μ ν΅ν ν리ν½μ€ μΊμ± λμ
π‘ μ€λ¬΄μ κ°μΉ (Relevance)
MoE λͺ¨λΈμ μ¬μ©νλ λκ·λͺ¨ λΆμ° μλΉ νκ²½μμ, λ¨μ λΆν λΆμ°μ΄ μλ λͺ¨λΈ λ΄λΆμ μ°μ° νΉμ±μ κ³ λ €ν ν¨μ¨μ μΈ μ€μΌμ€λ§ μ λ΅μ μ μν©λλ€.
β μΆμ² μ‘μ (Actionable Items)
- vLLM νκ²½μμ MoE λͺ¨λΈ(Mixtral λ±)μ νμ©ν λΆν λΆμ° μκ³ λ¦¬μ¦ λΉκ΅ μ€ν
- ν리ν½μ€ μΊμ±(Prefix Caching) μ¬μ© μ μκ·Έλμ² μ νλ λ° μ±λ₯ λ³ν μΈ‘μ
- λ€μν GPU ν΄λ¬μ€ν° κ·λͺ¨μμμ νμ₯μ±(Scalability) ν μ€νΈ