Wan-Streamer v0.1: End-to-end Real-time Interactive Foundation Models
Paper ID: 2606.25041 โข 38 Upvotes
Multimodal Real-time Streaming Foundation Model Audio-Visual Reasoning Video Audio Inference
๐ ํต์ฌ ์์ฝ
๋จ์ผ ํธ๋์คํฌ๋จธ ๋ชจ๋ธ๋ก ์ค๋์ค-๋น๋์ค-ํ
์คํธ๋ฅผ ํตํฉ ์ฒ๋ฆฌํ์ฌ 550ms ๋ฏธ๋ง์ ์ด์ ์ง์ฐ ์ํธ์์ฉ์ ๊ตฌํํ ์๋ํฌ์๋ ์คํธ๋ฆฌ๋ฐ ํ์ด๋ฐ์ด์
๋ชจ๋ธ
๐ ์์ธ ๋ด์ฉ
๊ธฐ์กด์ ๋ํํ ์์คํ
์ VAD, ASR, TTS, ๋น๋์ค ์์ฑ ๋ฑ ์ฌ๋ฌ ๋ชจ๋์ ๊ฒฐํฉํ ์บ์ค์ผ์ด๋(Cascaded) ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ์ฌ ์ง์ฐ ์๊ฐ๊ณผ ์ค๋ฅ ๋์ ๋ฌธ์ ๊ฐ ๋ฐ์ํ์ต๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด Wan-Streamer๋ ์ธ์ด, ์ค๋์ค, ๋น๋์ค๋ฅผ ๋จ์ผ ํธ๋์คํฌ๋จธ ๋ด์์ ํตํฉ ์ฒ๋ฆฌํ๋ ๋ค์ดํฐ๋ธ ์คํธ๋ฆฌ๋ฐ ๊ตฌ์กฐ๋ฅผ ์ ์ํฉ๋๋ค. ๋ชจ๋ธ์ ๋ธ๋ก ์ธ๊ณผ์ ์ดํ
์
(Block-causal attention)๊ณผ ์ ์ง์ฐ ๋ฉํฐ๋ชจ๋ฌ ํ ํฐ ์ค์ผ์ค๋ง์ ํตํด ์ค์๊ฐ ์คํธ๋ฆฌ๋ฐ์ ์ง์ํ๋๋ก ์ค๊ณ๋์์ต๋๋ค. ์ด๋ฅผ ํตํด ์ธ์ง, ์ถ๋ก , ์์ฑ, ํด ๊ด๋ฆฌ ๋ฐ ๋ชจ๋ฌ ๊ฐ ๋๊ธฐํ๊ฐ ํ๋์ ๋ชจ๋ธ ๋ด์์ ํตํฉ์ ์ผ๋ก ํ์ต๋ฉ๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก ๋ชจ๋ธ ์ธก ์๋ต ์ง์ฐ์ ์ฝ 200ms๋ก ๋ฎ์ถ์ด, ๋คํธ์ํฌ ์ง์ฐ์ ํฌํจํ ์ ์ฒด ์ํธ์์ฉ ์ง์ฐ ์๊ฐ์ 550ms ์์ค์ผ๋ก ๊ตฌํํ์ต๋๋ค.
๐ ์ฃผ์ ๋ด์ฉ (Key Points)
- ๋จ์ผ ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ์ ํตํฉ ๋ฉํฐ๋ชจ๋ฌ(์ธ์ด, ์ค๋์ค, ๋น๋์ค) ์ฒ๋ฆฌ ๊ตฌ์กฐ
- ๋ธ๋ก ์ธ๊ณผ์ ์ดํ ์ ๋ฐ ์ ์ง์ฐ ํ ํฐ ์ค์ผ์ค๋ง์ ํตํ ์ค์๊ฐ ์คํธ๋ฆฌ๋ฐ ์ต์ ํ
- ๋ชจ๋ ๋ถ๋ฆฌ ๋ฐฉ์์ด ์๋ ์๋ํฌ์๋ ํ์ต์ ํตํ ์ง์ฐ ์๊ฐ ๋ฐ ์ค๋ฅ ๋์ ์ต์ํ
๐ก ์ค๋ฌด์ ๊ฐ์น (Relevance)
๊ธฐ์กด์ ๋ณต์กํ ํ์ดํ๋ผ์ธ ์์ด ๋จ์ผ ๋ชจ๋ธ๋ก ์ค์๊ฐ ์๋ฐํ/๋ํํ ์์ด์ ํธ๋ฅผ ๊ตฌ์ถํ ์ ์๋ ๊ธฐ์ ์ ํ ๋๋ฅผ ์ ๊ณตํฉ๋๋ค.
โ ์ถ์ฒ ์ก์ (Actionable Items)
- ๋ธ๋ก ์ธ๊ณผ์ ์ดํ ์ ๊ตฌ์กฐ์ ์ฐ์ฐ ํจ์จ์ฑ ๋ฐ ์ง์ฐ ์๊ฐ ๋ถ์
- ๋ฉํฐ๋ชจ๋ฌ ํ ํฐ ์ค์ผ์ค๋ง ์๊ณ ๋ฆฌ์ฆ์ ๊ตฌํ ๊ฐ๋ฅ์ฑ ๊ฒํ
- ๊ธฐ์กด ์บ์ค์ผ์ด๋ ๋ฐฉ์ ์์คํ ๊ณผ์ ์ง์ฐ ์๊ฐ ๋ฐ ํ์ง ๋น๊ต ์คํ