Wan-Streamer v0.1: End-to-end Real-time Interactive Foundation Models

Paper ID: 2606.25041 • 38 Upvotes

Multimodal Real-time Streaming Foundation Model Audio-Visual Reasoning Video Audio Inference

Wan-Streamer v0.1: End-to-end Real-time Interactive Foundation Models

📝 핵심 요약

단일 트랜스포머 모델로 오디오-비디오-텍스트를 통합 처리하여 550ms 미만의 초저지연 상호작용을 구현한 엔드투엔드 스트리밍 파운데이션 모델

📖 상세 내용

기존의 대화형 시스템은 VAD, ASR, TTS, 비디오 생성 등 여러 모듈을 결합한 캐스케이드(Cascaded) 구조를 사용하여 지연 시간과 오류 누적 문제가 발생했습니다. 이를 해결하기 위해 Wan-Streamer는 언어, 오디오, 비디오를 단일 트랜스포머 내에서 통합 처리하는 네이티브 스트리밍 구조를 제안합니다. 모델은 블록 인과적 어텐션(Block-causal attention)과 저지연 멀티모달 토큰 스케줄링을 통해 실시간 스트리밍을 지원하도록 설계되었습니다. 이를 통해 인지, 추론, 생성, 턴 관리 및 모달 간 동기화가 하나의 모델 내에서 통합적으로 학습됩니다. 결과적으로 모델 측 응답 지연을 약 200ms로 낮추어, 네트워크 지연을 포함한 전체 상호작용 지연 시간을 550ms 수준으로 구현했습니다.

🔑 주요 내용 (Key Points)

단일 트랜스포머 기반의 통합 멀티모달(언어, 오디오, 비디오) 처리 구조
블록 인과적 어텐션 및 저지연 토큰 스케줄링을 통한 실시간 스트리밍 최적화
모듈 분리 방식이 아닌 엔드투엔드 학습을 통한 지연 시간 및 오류 누적 최소화

💡 실무적 가치 (Relevance)

기존의 복잡한 파이프라인 없이 단일 모델로 실시간 아바타/대화형 에이전트를 구축할 수 있는 기술적 토대를 제공합니다.

✅ 추천 액션 (Actionable Items)

블록 인과적 어텐션 구조의 연산 효율성 및 지연 시간 분석
멀티모달 토큰 스케줄링 알고리즘의 구현 가능성 검토
기존 캐스케이드 방식 시스템과의 지연 시간 및 품질 비교 실험

View on Hugging Face View PDF (arXiv)