DomainShuttle: Freeform Open Domain Subject-driven Text-to-video Generation
Paper ID: 2606.26058 โข 55 Upvotes
Video-Generation Diffusion-Models Personalization Computer-Vision Vision Video
๐ ํต์ฌ ์์ฝ
In-domain์ ๋์ ์ฌํ์จ๊ณผ Cross-domain์ ์ ์ฐ์ฑ์ ๋์์ ํ๋ณดํ ์คํ ๋๋ฉ์ธ ๋์ ๊ธฐ๋ฐ ํ
์คํธ-๋น๋์ค ์์ฑ ๊ธฐ์
๐ ์์ธ ๋ด์ฉ
์ต๊ทผ ์คํ ๋๋ฉ์ธ ๋์ ๊ธฐ๋ฐ ํ
์คํธ-๋น๋์ค(S2V) ์์ฑ ๊ธฐ์ ์ด ์ฃผ๋ชฉ๋ฐ๊ณ ์์ผ๋, ๊ธฐ์กด ๋ฐฉ์์ ๋์์ ํน์ง์ ์ ์งํ๋ ๋ฐ๋ง ์ง์คํ์ฌ ์คํ์ผ ๋ณ๊ฒฝ์ด๋ ์๋ฏธ์ ๊ฒฐํฉ ๊ฐ์ ํฌ๋ก์ค ๋๋ฉ์ธ ์๋๋ฆฌ์ค์์์ ์ ์ฐ์ฑ์ด ๋ถ์กฑํ์ต๋๋ค. ๋ณธ ์ฐ๊ตฌ์์๋ ๋์์ ์ ์ฒด์ฑ์ ์ ์งํ๋ฉด์๋ ๋๋ฉ์ธ ๊ฐ ์ ํ์ด ์์ ๋ก์ด DomainShuttle์ ์ ์ํฉ๋๋ค. ์ด๋ฅผ ์ํด ๋น๋์ค์ ์ฐธ์กฐ ํน์ง์ ๋ถ๋ฆฌํ๊ณ ๋๋ฉ์ธ๋ณ ๋ชจ๋ธ๋ง์ ์ง์ํ๋ Domain-MoT์, ์ฐธ์กฐ ์ด๋ฏธ์ง์ ๋น๋์ค ํ ํฐ์ ๋ถ๋ฆฌ๋ ๊ณต๊ฐ์์ ์ฒ๋ฆฌํ๋ Video-Reference DualRoPE๋ฅผ ๋์
ํ์ต๋๋ค. ๋ํ, ๋ถํ์ํ ํน์ง์ ์ํฅ์ ๋ฐ์ง ์๋ ํต์ฌ ํน์ง ์ถ์ถ์ ์ํด Cross-Pair Consistent Loss๋ฅผ ์ ์ฉํ์ต๋๋ค. ์คํ ๊ฒฐ๊ณผ, ์ ์ ๋ฐฉ์์ ๋์ ๋์ ์ฌํ์จ๊ณผ ์์ฑ ์ ์ฐ์ฑ์ ๋์์ ๋ฌ์ฑํ๋ฉฐ ๊ธฐ์กด ๋ชจ๋ธ ๋๋น ๋ฐ์ด๋ ์ฑ๋ฅ์ ์
์ฆํ์ต๋๋ค.
๐ ์ฃผ์ ๋ด์ฉ (Key Points)
- Domain-MoT: ๋น๋์ค์ ์ฐธ์กฐ ํน์ง์ ๋ถ๋ฆฌํ๊ณ ๋๋ฉ์ธ ์ธ์ AdaLN์ ํตํด ์ ๊ตํ ๋ชจ๋ธ๋ง ์ํ
- Video-Reference DualRoPE: ์ฐธ์กฐ ์ด๋ฏธ์ง์ ๋น๋์ค ํ ํฐ์ ๋ณ๋์ RoPE ๊ณต๊ฐ์ ๋ฐฐ์นํ์ฌ ์ ๋ฐํ ๊ณต๊ฐ ๋ชจ๋ธ๋ง ๊ตฌํ
- Cross-Pair Consistent Loss: ๋์์ ๋ณธ์ง์ ํน์ง๋ง ์ถ์ถํ์ฌ ๋๋ฉ์ธ ๋ณํ์๋ ์ผ๊ด๋ ์ ์ฒด์ฑ ์ ์ง
๐ก ์ค๋ฌด์ ๊ฐ์น (Relevance)
ํน์ ์บ๋ฆญํฐ๋ ์ฌ๋ฌผ์ ์ ์งํ๋ฉด์๋ ๋ฐฐ๊ฒฝ, ์คํ์ผ, ํ๊ฒฝ์ ์์ ๋กญ๊ฒ ๋ฐ๊พธ๋ ๊ณ ํ์ง ๋น๋์ค ์์ฑ ํ์ดํ๋ผ์ธ ๊ตฌ์ถ์ด ๊ฐ๋ฅํด์ง๋๋ค.
โ ์ถ์ฒ ์ก์ (Actionable Items)
- ์ ์๋ DualRoPE ๊ตฌ์กฐ๊ฐ ๊ธฐ์กด DiT(Diffusion Transformer) ๊ตฌ์กฐ์ ์ด๋ป๊ฒ ํธํ๋๋์ง ๋ถ์
- ๋ค์ํ ์คํ์ผ(์ ๋๋ฉ์ด์ , ์ค์ฌ ๋ฑ)๋ก์ ํฌ๋ก์ค ๋๋ฉ์ธ ์ ํ ์ฑ๋ฅ ํ ์คํธ
- ๋ณต์กํ ๋ฐฐ๊ฒฝ ์์์๋ ๋์์ ํน์ง์ด ์๊ณก๋์ง ์๋์ง ์ ์ฑ์ ํ๊ฐ ์ํ