Duration Aware Scheduling for ASR Serving Under Workload Drift
Paper ID: 2603.11273 • 1 Upvotes
ASR Scheduling vLLM Latency Optimization Audio Evaluation Inference
📝 핵심 요약
ASR 서비스의 작업 시간 변동성을 고려한 스케줄링 최적화를 통해 지연 시간(Latency)을 획기적으로 개선
📖 상세 내용
대규모 ASR 서비스에서는 FCFS 방식의 스케줄링이 작업 시간 차이로 인한 Head-of-line blocking 문제를 야기합니다. 연구진은 오디오 길이가 작업 처리 시간의 정확한 지표라는 점에 착안하여 duration-aware 스케줄링을 제안합니다. 이를 위해 SJF와 HRRN 알고리즘을 vLLM에 통합하여 실험을 진행했습니다. 실험 결과, SJF는 중앙값 지연 시간을 크게 줄였으나 긴 작업의 기아 현상(Starvation) 문제를 보였습니다. 반면 HRRN은 지연 시간 단축과 꼬리 지연 시간(Tail latency) 사이의 균형을 효과적으로 유지하며 워크로드 변화에도 안정적인 성능을 보였습니다.
🔑 주요 내용 (Key Points)
- 오디오 길이를 활용한 작업 처리 시간 예측 및 스케줄링 최적화
- SJF와 HRRN 알고리즘을 vLLM 기반 ASR 엔진에 통합
- 워크로드 변화(Workload Drift) 상황에서도 유지되는 낮은 스케줄링 오버헤드와 성능 안정성
💡 실무적 가치 (Relevance)
실시간 음성 인식 서비스 운영 시, 작업 길이 차이로 발생하는 대기 시간을 줄여 사용자 경험을 개선할 수 있는 실무적인 스케줄링 전략을 제시합니다.
✅ 추천 액션 (Actionable Items)
- vLLM 환경에서 작업 길이 기반의 우선순위 큐 구현 테스트
- SJF 적용 시 발생하는 긴 작업의 기아 현상(Starvation) 모니터링
- 다양한 오디오 길이 분포를 가진 실제 워크로드에서의 HRRN 성능 검증